只需一步,快速开始
使用道具 举报
xmubingo 发表于 2012-10-5 12:37 那个链接可以用来读取你的120w行的数据
xmubingo 发表于 2012-10-5 12:45 你的意思是,你有个10G大小的索引在硬盘,然后你想把它读进内存,然后搜索?可是10G的东西你怎么读进内存?
hsc 发表于 2012-10-5 12:48 我在写入的时候,动了点手脚,把索引分块进行索引,比如说前100万个地址的存储到第一个文件,然后依次, ...
xmubingo 发表于 2012-10-5 12:58 我明白你的意思了。 你现在用hashmap保存,然后因为这个太大了,比如说有10G,你拆成了100份来存,每个1 ...
tangzk 发表于 2012-10-5 16:40 IO问题历来都是瓶颈的,不过有些可以处理下。 1、压缩数据结构表达,能用bit/byte的话不要用integer了,精 ...
reck 发表于 2012-10-17 17:07 即便你要做搜索,实际情况其实很简单. 所有的文档分词后,合并一下产生的不重复的term与 document id组成 ke ...
hsc 发表于 2012-10-18 09:37 理论上是这样的,但是实际做起来,并不是想象中的那么顺利,而且这还是特定的字符串,不是全文索引,再加 ...
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
机器学习和生物信息学实验室联盟
GMT+8, 2024-11-1 19:34 , Processed in 0.072073 second(s), 18 queries .
Powered by Discuz! X3.2
© 2001-2013 Comsenz Inc.