笔记之百度面试题.doc
上传人:sy****28 上传时间:2024-09-14 格式:DOC 页数:3 大小:41KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

笔记之百度面试题.doc

笔记之百度面试题.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

1、实现一个函数,对一个正整数n,算得到1需要的最少操作次数。操作规则为:如果n为偶数,将其除以2;如果n为奇数,可以加1或减1;一直处理下去。1、首先除2操作的题应该考虑将数字转化为二进制数考虑2、最少的操作次数:除越多越快收敛到13、初始值一般特殊:34、末尾为0,做除2操作5、末尾为01,应做-1运算6、末尾为11,应做+1运算(3做-1运算)7、&只有两位全是1才为13、一个大的含有50M个URL的记录,一个小的含有500个URL的记录,找出两个记录里相同的URL。回答:首先使用包含500个url的文件创建一个hash_set。然后遍历50M的url记录,如果url在hash_set中,则输出此url并从hash_set中删除这个url。所有输出的url就是两个记录里相同的url。一般大数据量的查询就要想到hash补充:hashset的示例*************************************************海量数据处理是弱项,要做专题训练;hash函数(词频统计)4、海量日志数据,提取出某日访问百度次数最多的那个IP。IP地址最多有2^32=4G种取值可能,所以不能完全加载到内存中。可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到总体上出现次数最多的IP。5、有10个文件,每个文件1G,每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。如何按照query的频度排序?回答:1)读取10个文件,按照hash(query)%10的结果将query写到对应的文件中。这样我们就有了10个大小约为1G的文件。任意一个query只会出现在某个文件中。2)对于1)中获得的10个文件,分别进行如下操作-利用hash_map(query,query_count)来统计每个query出现的次数。-利用堆排序算法对query按照出现次数进行排序。-将排序好的query输出的文件中。这样我们就获得了10个文件,每个文件中都是按频率排序好的query。3)对2)中获得的10个文件进行归并排序,并将最终结果输出到文件中。