【库存】分布式词频统计

【库存】分布式词频统计
一个规模庞大的多语言语料库,已经经过预处理,分成了12个文件,每个文件存放在一台服务器中。每个文件中包含800亿个单词,每个单词占一行,平均每个单词40字节。假设服务器都已经联网,每台服务器有双CPU和4G的内存,4×400GB的硬盘,换句话说,每台服务器就是一个高配置的PC机。请设计一个方案,找出出现频率最高的一百万个单词。 这个问题基本上可能有两种思路。第一种需要先在每台服务器,完成对单词词...
Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录