对百度分词一头雾水?那就从分词方式开始吧!

原创 福建筑梦SEO  2017-07-05 21:09  阅读 705 views 次
福建筑梦SEO_为你打造会聚流量的网站

作为当前最大的中文搜索引擎,百度的各项算法,就算饱受着众多网友的吐槽,却仍然傲立在国内的搜索排行榜之首。

很多朋友会因为各种各样的原因,不断的倾向于Google,认为Google的体验,服务等等都要强于百度,但是为什么Google在国内搞不下去,真的只是因为gov吗?

筑梦SEO并不这么觉得!就目前来说,至少在全球范围内,像中文,韩文,日文等语系里,Google都没办法强压住市场,只是巧合吗?不是的,这里面还涉及到了搜索引擎核心的一块基础能力,那就是分词效果。

简单举个例子“筑梦SEO如何做排名”“筑梦SEO是如何快排的”、“筑梦SEO怎么优化”、“筑梦SEO是通过什么方式做排名的”、“筑梦SEO如何做到快速排名的”、“筑梦SEO靠什么做排名”、“筑梦按什么做排名”、“筑梦SEO的优化排名是什么”……这几个短语短句至少都包含一个意思“筑梦SEO的优化排名是什么规则(原理)”,除此之外,每个句子都有其他的含 义,如这些句子还包含有“筑梦SEO怎么实现排名(实现这个目标的方法)”,筑梦SEO是怎么进行优化排名的(原理实现的过程)”……

在中文的语句语义里,包含了太多太多的意思,韩文,日文与我们中文的衍生意类似。因此,对于这种语义的分词,Google至少还是差火候的。

言归正题!以上讲了我们平时的一些搜索含义,很多朋友也已听说多次百度分词的概念了,但很多时候还是对百度分词一头雾水,对此,我们那就从分词方式开始吧!

百度分词一头雾水?那就从分词方式开始吧

 一、自然分割法

包括标点符号、空格引起的分割。这是首要因素,比如或者“筑梦SEO好不好”这样的搜索行为会被百度首先划分为“筑梦SEO”、“好不好”,这一点是肯定的,要理解用户搜索的行为意图,首先是要尊重用户的搜索行为;

   二、中文词库分割法

不难理解,“筑梦SEO好不好”将被分为“筑梦”“SEO”“好不好”这几个词,因为这是中文词典里存在的词,百度有庞大的中文词典库支撑,这个不是难度;

   三、分词组合分词法

二点中的分词显然是不够的,要更能理解用户意图,必须保证语义连贯,那么那三个词可以组合成“筑梦SEO好不好”;“筑梦SEO”+“好不好”; “SEO”+“好不好”;“筑梦”+“好不好”以及这几个词颠倒的组合,重要程度按照顺序优先原则,紧接着是倒序和双向序列的分词组合,分析切分有个基 本的原则就是最少的切分。
以上三点是通常意义上的分词,除此之外,还有更麻烦的分词需要百度处理,见后几点。

 四、分字法

当我们搜索“筑 梦 S E O 好 不 好”的时候,看看百度的搜索结果,你是不有点蛋疼,这时,百度无法判断你在搜索的什么,只能按照分字法再做组合分词,组成不同的词组去数据库中匹配。

 五、错别/拼音识别法

有时我们打错汉字,或者打成拼音,会发现把百度返回的结果是:“你要找的结果是不是:***”

百度:你要找的是不是

   六、新词/热词法

新词的来源一般有两种:a.近期流行语造成,这个百度的数据库会根据用户搜索行为积累的数据以及网络热词监测数据来进行调整补充到词库;b.语言新词/用户造词,这个主要是靠搜索行为累积的数据调整,也针对部分语言新词人工作补充。

    福建筑梦SEO每文一结

百度的分词功能强大,分词方式也不仅仅局限以上几种,可这和我们研究分词有什么关系呢?这样说吧,因为,大多数情况下,用户的搜索词是千奇百怪的,而百度应对用户的搜索结果就是靠着这样的关键词匹配技术给出的。如果,我们掌握了他这种分词匹配技术,那画面,你们想想。

本文地址:http://www.fjzmseo.com/516.html
关注我们:加微信,交流更方便:扫描二维码,微信号:13916252714
版权声明:本文为原创文章,版权归 福建筑梦SEO 所有,欢迎分享本文,转载请保留出处!

发表评论


表情