xmubingo 发表于 2012-10-5 12:22 第一个问题,序列化写呢? 第二个问题,你之前不是做过IO测试么?读进花了多少时间?你可以把数据集和花 ...
chenwq 发表于 2012-10-5 12:24 显然,我没有对处理I/O有很深入了解。 看描述,和StringIO的应用场景类似,此外,不妨也采用效率最好的bz2 ...
xmubingo 发表于 2012-10-5 12:29 Java Large Files Disk IO Performance http://stackoverflow.com/questions/964332/java-large-files-dis ...
hsc 发表于 2012-10-5 12:28 我设计一个索引结构,我测试了一下,索引和搜索花费的时间有90%都是在写入和读取索引上了,所以想知道怎么 ...
hsc 发表于 2012-10-5 12:35 他这些都貌似只是把内容写入硬盘就OK了,我还想保存完整的数据结构,这样搜索的时候,就是直接映射读取, ...
xmubingo 发表于 2012-10-5 12:36 你的索引和搜索是怎么建立?为啥需要从硬盘上读写索引? --
xmubingo 发表于 2012-10-5 12:37 那个链接可以用来读取你的120w行的数据
xmubingo 发表于 2012-10-5 12:45 你的意思是,你有个10G大小的索引在硬盘,然后你想把它读进内存,然后搜索?可是10G的东西你怎么读进内存?
hsc 发表于 2012-10-5 12:48 我在写入的时候,动了点手脚,把索引分块进行索引,比如说前100万个地址的存储到第一个文件,然后依次, ...
xmubingo 发表于 2012-10-5 12:58 我明白你的意思了。 你现在用hashmap保存,然后因为这个太大了,比如说有10G,你拆成了100份来存,每个1 ...
tangzk 发表于 2012-10-5 16:40 IO问题历来都是瓶颈的,不过有些可以处理下。 1、压缩数据结构表达,能用bit/byte的话不要用integer了,精 ...
reck 发表于 2012-10-17 17:07 即便你要做搜索,实际情况其实很简单. 所有的文档分词后,合并一下产生的不重复的term与 document id组成 ke ...
hsc 发表于 2012-10-18 09:37 理论上是这样的,但是实际做起来,并不是想象中的那么顺利,而且这还是特定的字符串,不是全文索引,再加 ...
reck 发表于 2012-10-18 14:31 再复杂再大的数据,也能够抽象成最简单的映射,关键在于你怎么想了。 否则像lucene能支持TB级别数据量, ...