哪吒机器人提醒:

提醒:YangYun
【标题】切词技术——中文搜索的核心
【摘要】切词技术——中文搜索的核心 有个真实的笑话,某人为寻一大师墨宝而软磨硬泡,大师终拗不过,赠字一幅,曰“不可随处小便”,尴尬之时,亏一才子将字切拆,重新组合成“小处不可随便”,某人大喜。通过这个故事,我们可以感到中文的博大精深,估计全世界也没有这么有复杂多变的文字了。所以,中文“搜索引擎”要面对网上庞大的中文信息,除了具有英文“搜索引擎”的特征之外,还需要一些特别的功能,这就是切词技术。中文搜索引擎重要的是具有中文信息的“切词”功能。西文单词之间用空格分隔,很方便计算机的检索,而中文的字词则不能简单地进行分隔,因此检索起来很麻烦。这个问题的解决需要很高的技术实力。否则会给用户造成很大的麻烦。一般有两种处理方法,一个是完全单汉字全文检索,即将网页中的每一个汉字都录入索引库,而将用户的检索提问根据单汉字匹配的原则去进行检索。此法虽然能够保持有很高的查全率,但由于中文中存在歧义的地方很多,基于字的检索很容易返回一些跟用户输入无关的结果。另一种是根据一定的原则和方法来对文章进行自动“切词”,然后按词建库,将用户的检索结果按词汇匹配来进行查询,这种处理方法拥有较高的查询命中率,但对“切词”技术的... (04-09 17:16)