2)数据集处理
一般TREC格式的数据集是可以直接处理的,如果不是,转换成TREC格式
即每片检索单位(文档)用<DOC></DOC>标记,中间可以用自定义的tag来标注域
如我们把微博数据处理成如下格式
<DOC>
<DOCNO>28968573615472640</DOCNO>
<DATE>Sun Jan 23 00:13:40 +0000 2011</DATE>
<TEXT>
<LA>#Twitition</LA> this is a answer of a hater to me ):
<A>http://twitition.com/p6q53</A> <TO>@TwitterUserNameToReply</TO>
</TEXT>
<SCREENNAME>TwitterUserName</SCREENNAME>
<FULLNAME>Mrs. XXXX </FULLNAME>
<RETWEET_COUNT>0</RETWEET_COUNT>
<URL> http://twitition.com/p6q53</URL>
<HASHTAGS> #Twitition </HASHTAGS>
<MENTIONS> TwitterUserNameToReply </MENTIONS>
</DOC>
数据集可以是多个文件放在一个目录下collection,每个文件中可以包含多个<DOC>
3)query处理
trec.topics文件,以<top></top>标记一个topic,中间可以有多个tag
<top><num> Number: MB001 </num><title> BBC World Service staff cuts </title></top>
这个例子是直接可以被terrier处理的,如果要添加更多的自定义tag,需要改源代码以解析域