只需一步,快速开始
使用道具 举报
reck 发表于 2012-10-18 14:31 再复杂再大的数据,也能够抽象成最简单的映射,关键在于你怎么想了。 否则像lucene能支持TB级别数据量, ...
hsc 发表于 2012-10-18 09:37 理论上是这样的,但是实际做起来,并不是想象中的那么顺利,而且这还是特定的字符串,不是全文索引,再加 ...
reck 发表于 2012-10-17 17:07 即便你要做搜索,实际情况其实很简单. 所有的文档分词后,合并一下产生的不重复的term与 document id组成 ke ...
tangzk 发表于 2012-10-5 16:40 IO问题历来都是瓶颈的,不过有些可以处理下。 1、压缩数据结构表达,能用bit/byte的话不要用integer了,精 ...
xmubingo 发表于 2012-10-5 12:58 我明白你的意思了。 你现在用hashmap保存,然后因为这个太大了,比如说有10G,你拆成了100份来存,每个1 ...
hsc 发表于 2012-10-5 12:48 我在写入的时候,动了点手脚,把索引分块进行索引,比如说前100万个地址的存储到第一个文件,然后依次, ...
本版积分规则 发表回复 回帖并转播
机器学习和生物信息学实验室联盟
GMT+8, 2024-11-1 19:35 , Processed in 0.076882 second(s), 21 queries .
Powered by Discuz! X3.2
© 2001-2013 Comsenz Inc.