大数据面试150题（大数据面试题考察1M）

蜡笔小明 2023-01-30 22:38:18

每晚10点，捕获技术思考和创业资源洞察

“分而治之”( Divide and conquer)方法(又称“分治术”) ，是有效算法设计中普遍采用的一种技术。

有一个1G大小的一个文件，里面每一行是一个英文单词，词的大小不超过16字节，内存限制是1M。请设计一个算法思路，返回频数最高的100个词.

初步一看，要处理的文件大小1G，可内存却只有1M。我们知道1G的文件用1M的内存空间处理不太现实。按照1M的上限来计算，假设每个单词都为16个字节，那么1M的内存可以处理多少个单词？

我们来计算下，1M = 1024 KB = 1024 * 1024 B 。1M / 16B = 2^16个单词，那么1G大概有多少个单词呢？有2^26个单词，但是实际中应该不止，因为我们是按照最大单词长度来计算的，有可能有的单词只有两个字母。

方案1大概思路：
分而治之/hash映射：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。
hash统计：对每个小文件，采用trie树/hash_map等统计每个文件中出现的词以及相应的频率。
堆/归并排序：取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这时我们又得到了5000个文件。最后把这5000个文件进行归并（类似与归并排序）的过程。

类似这样的方案应该有很多，我们共同去研究学习，经验都是个人实践总结出来的，以上仅代表个人观点。以此分享给大家，不足之处望大家留言补充。
,

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

拳头新英雄lol（拳头游戏英雄联盟工作室迎来新负责人）

單純神
面试通过没收到offer怎么问（公司给了口头offer算面试通过吗）

不爱我的滚
集团公司中秋慰问信（董事长段彦亮中秋佳节给员工的慰问信）

爱情归你
结构化小组面试提问环节（结构化小组面试点评与回应）

牵起手相守
迈向新世纪的故事（嬗变的领导者）

久命良人
chrome浏览器开始无痕模式（谷歌员工吐槽Chrome浏览器的）

少轻狂
一般贴片电阻的功率（贴片电阻额定功率及工作电压）

弄花香滿衣

秒懂生活

大数据面试150题（大数据面试题考察1M）

猜您喜欢

拳头新英雄lol（拳头游戏英雄联盟工作室迎来新负责人）

面试通过没收到offer怎么问（公司给了口头offer算面试通过吗）

集团公司中秋慰问信（董事长段彦亮中秋佳节给员工的慰问信）

结构化小组面试提问环节（结构化小组面试点评与回应）

迈向新世纪的故事（嬗变的领导者）

chrome浏览器开始无痕模式（谷歌员工吐槽Chrome浏览器的）

一般贴片电阻的功率（贴片电阻额定功率及工作电压）

热门推荐

排行榜