SogouT互联网语料库v3.0发布

10/29/2008 From 搜狗实验室
Summary: 为推动中文互联网信息检索、数据挖掘方面的研究,清华—搜狐搜索技术联合实验室近期推出了SogouT互联网语料库,欢迎各位学者在互联网和自然语言处理相关研究中使用。 SogouT语料库收集了超过1.3亿网页数据,总存储规模达到5TB以上。除了包括所有的网页原始数据外,还包括了提取出的这部分网页之间的链接关系数据,以及PageRank数值数据。与该数据同时推出的还包括规模庞大的用于网络信息检索评测的标准...
Bookmark |  Comment |  Forward  |   | 
Comments:
- Comments