笔记之百度面试题-第一文库 | 海量文档资源下载与分享平台

在线预览结束，喜欢就下载吧，查找使用更方便

16 金币

下载此文档

/ 3

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

1、实现一个函数，对一个正整数n，算得到1需要的最少操作次数。操作规则为：如果n为偶数，将其除以2；如果n为奇数，可以加1或减1；一直处理下去。1、首先除2操作的题应该考虑将数字转化为二进制数考虑2、最少的操作次数：除越多越快收敛到13、初始值一般特殊：34、末尾为0，做除2操作5、末尾为01，应做-1运算6、末尾为11，应做+1运算（3做-1运算）7、&只有两位全是1才为13、一个大的含有50M个URL的记录，一个小的含有500个URL的记录，找出两个记录里相同的URL。回答：首先使用包含500个url的文件创建一个hash_set。然后遍历50M的url记录，如果url在hash_set中，则输出此url并从hash_set中删除这个url。所有输出的url就是两个记录里相同的url。一般大数据量的查询就要想到hash补充：hashset的示例*************************************************海量数据处理是弱项，要做专题训练；hash函数（词频统计）4、海量日志数据，提取出某日访问百度次数最多的那个IP。IP地址最多有2^32=4G种取值可能，所以不能完全加载到内存中。可以考虑分而治之的策略，按照IP地址的hash(IP)%1024值，将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。对于每个小文件，可以构建一个IP作为key，出现次数作为value的hash_map，并记录当前出现次数最多的1个IP地址。有了1024个小文件中的出现次数最多的IP，我们就可以轻松得到总体上出现次数最多的IP。5、有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。如何按照query的频度排序？回答：1）读取10个文件，按照hash(query)%10的结果将query写到对应的文件中。这样我们就有了10个大小约为1G的文件。任意一个query只会出现在某个文件中。2）对于1）中获得的10个文件，分别进行如下操作-利用hash_map（query，query_count）来统计每个query出现的次数。-利用堆排序算法对query按照出现次数进行排序。-将排序好的query输出的文件中。这样我们就获得了10个文件，每个文件中都是按频率排序好的query。3）对2）中获得的10个文件进行归并排序，并将最终结果输出到文件中。