很遗憾,因您的浏览器版本过低导致无法获得最佳浏览体验,推荐下载安装谷歌浏览器!

百度搜索引擎中文分词与文本粒度

2015-10-08  来自: 陕西印象信息技术有限公司 浏览次数:2901

    百度搜索引擎的目的就是在满足绝大部分用户的需求下提供***精que***丰富的搜索结果,对于搜索引擎而言,用户停留时间越短,越说明搜索引擎的***性和准确性,不管是百度的轻应用、知心搜索,还是谷歌的语义搜索、蜂鸟算法,或是360的我的搜索,都是为了能够帮助人们更方便的找到所求。

    而对于搜索引擎而言,想要给用户***需求的就需要去判断用户搜索词的意图。而搜索引擎尽管非常***,数据库非常庞大,但它毕竟不是那么智能,不能直接判断出搜索词的意思,尽管谷歌已公布可以借助更加复杂的搜索请求***的理解人类语言的概念,而不是一些零散的单词,这样的搜索能提供更加***的结果,即整句搜索。但这只是一小步,搜索引擎不论是进行索引还是网页排序仍需要对文本进行切分,即中文分词。分词仍然是***基础也是***重要的。而在中文分词过程中文本粒度起到关键性的作用。

    文本粒度

    所谓文本粒度,对于搜索引擎而言:粒度是衡量文本所含信息量的大小。文本含信息量越多,粒度就越大,反之就小。有人会说那简单啊,当然词越长含有的信息量就越大,你确定?那木木SEO告诉你一个小玩意:肌联蛋白是目前已知的***da蛋白质,名字足足有189819个字母,是名副其实***da的单词。这个单词的信息量是有多大?闲话不多说,先来看下面几组词中,哪些的粒度大,哪些的粒度小。

    萝卜、葡萄、乒乓

    龙井、篮球、红色、橡皮檫

    踢球、拔河、谈恋爱、登山

    高清电视机、南非双人游、呼叫中心系统

第1组词由两个字组成,但是仅表达一个意思,这些词的粒度是小的。而第二组词虽然也基本由两个字组成,也只有一个意思,但这些词还可以拆分,如篮和球、橡皮和檫、踢和球等,这类词粒度要稍微大一些。而后面的第四组,不要说粒度就更大了。


联 系 人:刘经理

业务咨询:18165398160(同微信)

服务监督:18966660101(同微信)

客服电话:029-88412862

法律顾问:李宝特律师团队

联系地址:西安市碑林区南关正街中贸广场15号楼2单元9F

CopyRight © 版权所有: 陕西印象信息技术有限公司 网站地图 XML 备案号:陕ICP备09025595号-1

本站关键字: 西安短视频运营 西安短视频推广 西安短视频代运营 西安抖音短视频推广 西安抖音短视频运营 西安抖音推广公司 西安抖音运营公司 西安短视频拍摄制作 西安短视频拍摄剪辑 西安抖音推广代运营 西安网站建设

陕公网安备 61010302000938号


扫一扫访问移动端