【库存】分布式词频统计 一个规模庞大的多语言语料库,已经经过预处理,分成了12个文件,每个文件存放在一台服务器中。每个文件中包含800亿个单词,每个单词占一行,平均每个单词40字节。假设服务器都已经联网,每台服务器有双CPU和4G的内存,4×400GB的硬盘,换句话说,每台服务器就是一个高配置的PC机。请设计一个方案,找出出现频率最高的一百万个单词。 这个问题基本上可能有两种思路。第一种需要先在每台服务器,完成对单词词... 2008年12月29日 学习随笔 暂无评论 喜欢 0 阅读 1 次 阅读全文