输入复制码,即可复制
关注 公众号 发送 复制码 即可获取
只需要3秒时间
查看: 96|回复: 0

细谈百度分词技术之标题的设计实例

[复制链接]

55

主题

60

帖子

115

积分

新手

Rank: 2

积分
115
发表于 2014-5-25 21:37 | 显示全部楼层 |阅读模式
细谈百度分词技术之标题的设计实例
细谈百度分词技术之标题的设计实例
  影响一个页面在搜刮引擎排名最重要的因素之一是相干度,而最直接表现一个页面与用户搜刮行为是不是相干的就是标题,那么想写好一个标题你就不能不去深切的了解搜刮引擎的分词原理!以百度为例,经过十年左右的完美,在中文搜刮里百度已经是一个非常高效的搜刮引擎,大家也和点水一样肯定都知道一个高效的搜刮引擎工作肯定会触及到很多为人知的技术点,但我们若是把复杂的搜刮引擎工作简化为三个步骤那么分别是:查询,分词,匹配。那我们经由过程实例来看看搜刮引擎是若何处理的呢,为了能理解的更加直观,我们以海员(年轻时很喜好这首歌)为主关健词在百度进行尝试。
一 搜刮引擎若何处理查询
  1,搜刮引擎的被动行为。若是用户根据自已的意愿在搜刮的关健词的时辰有加上空格,标点,那么搜刮引擎会优化按用户的行为进行查询,这个应该很好理解!例如:百度搜刮 郑智化海员 与搜刮 郑智化 海员,所返回的结果会是不一样的!可能这个例子还并不直观,举一个更直观的例子,   看上图就很直观了,搜刮引擎会优化考虑用户的查询行为。2,搜刮引擎的主动行为
  搜刮引擎收到用户的搜刮内容,会根据自已基础词典与特别词库为用户的查询进行主动分词。
如搜刮:郑智化海员 ,百度会根据其搜刮词库(猜测为:人名库+歌名库)智能将郑智化与海员这两个词分别进行查询,搜刮结果如:
  那么若是搜刮内容中包含同时中文与英文百度是若何处理的呢?百度会将英文做为单独的一块来处理,然后英文前后的词也做为一个单独的块。试搜刮:郑智化bt下载,结果以下:
  二,搜刮引擎若何进行分词与匹配
  分词根据字符串进行匹配,最常见的有三种分词匹配法,分别为:正向最大匹配法,反向最大匹配法和最短路径分词法。1,甚么是正向最大匹配法呢?简单点说就是从左到右进行分词,例如百度:武林别传说,武林别传与传说是两个不同的词。
根据用户搜刮习惯与词库分析百度会返回一个正向最大的匹配,也就是分词为:武林别传 说。搜刮结果以下图:
  2,甚么是反向最大匹配法
  反向分词固名思义就是从右向左进行分词了。回到刚才的例子,百度:郑智化学,若是按照正向分词那么我们应该得到的分词结果是:郑智化 学。那么百度搜刮的结果为甚么却不是这样呢?而是分成了郑智 化学。如图:
  这就是因为百度搜刮结果中是用了反向分词进行匹配!3,正反向同时分词匹配
  而有一种特别的情况,就是关健词前后组合内容被认为粘性相差不大,而搜刮结果辊也同时包含这两组词的话,百度会进行正反向同时进行分词匹配。
  4,甚么是分词最少化
  指:分出来的词数应该是追求最少化,以搜刮:武林别传说 为例,理论可以分成:武林 外 传说,可是百度只分成了 武林别传 说 ,即能尽量将分组数减少,能分成两组的尽量不分成三组!只有对搜刮的分词技术基础原理进一步了解之后才能知已知彼,有针对性的为网站首页,内页设计标题,从而更好的布juzhang尾词,让流量最大化。
温馨提示:
1、本内容转载于网络,版权归原作者所有!
2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

客服QQ/微信
860820528 周一至周日:09:00 - 22:00
十五年老品牌,学习网上创业赚钱,首先阿抖学社,值得信赖!
阿抖学社 版权所有!

本站内容均转载于互联网,并不代表阿抖学社立场!
拒绝任何人以任何形式在本站发表与中华人民共和国法律相抵触的言论!

小黑屋|广告服务|加入vip|APP下载|手机版| 阿抖学社 ( 蜀ICP备14032121号-4 ) |网站地图

GMT+8, 2025-6-23 18:38 , Processed in 0.058282 second(s), 27 queries .

快速回复 返回顶部 返回列表