输入复制码,即可复制
关注 公众号 发送 复制码 即可获取
只需要3秒时间
查看: 95|回复: 0

搜索引擎优化之中文分词

[复制链接]

85

主题

74

帖子

148

积分

新手

Rank: 2

积分
148
发表于 2014-10-5 16:32 | 显示全部楼层 |阅读模式
分词是中文搜索引擎中特有的技术。在英文中单词次为单位,单词之间会有空格,并且每个单词都有特定的意思,计算机很容易理解英文语句的意思。但是中文以字为单位,只要将一句话中所有的字串联起来才能表达一个完整的意思,计算机不能直接把中文分成单个字来理解,所以就需要引入中文分词技术,把一句话切分成一个个有意义的词语来进行理解。比如把“seo优化教程”切分成“seo/优化/教程”。

搜索引擎面对中文网页时就是这样,靠中文分词来理解网页所描述的内容。其实分词技术的基础就是海量的有意义的词库,搜索引擎会使用自己强大的词库来对网页内容进行拆分,或者是对内容进行机械切割,统计出出现次数最多的词。通过分词就可以使得搜索引擎明白该网页内容是与什么相关的,这会直接决定该网页出现在那些词的搜索结果中,所以中文分词在seo工作中也是也是需要潜心研究的。现在很多人只是知道有么项技术,但是对这项技术具体怎么进行分词的,以及中文分词是怎么运用到seo工作中的还一无所知。

现在常见的中文分词技术有两种:基于词典匹配和基于统计,也有研究基于语义分析的分词方法,但是汉语博大精深,计算机程序暂时还不能很好地支持。

一、基于词典匹配

这种分词技术是使用搜索引擎自己的词典对网页内容进行拆分。按照匹配方向的不同可以分为正向匹配和逆向匹配;按照不同长度优先匹配的不同可以分为最长匹配和最小匹配。常见的三种匹配方法是最大匹配(由左到右)、逆向最大匹配(由右到左)和最少切分。

不论使用什么样的匹配方式,都是使用搜索引擎已有的词典,对网页内容进行拆分理解。这种分词方式的准确度取决于词典的完整性和更新情况。如果当一个新词出现时,搜索引擎没有即时把该词加入到词典中,那么就会影响最终的分词精度。尤其是在网络如此发达的今天,几乎每天都有新词出现。

二、基于统计

这种分词技术不依靠词典,而是对大量文字样本进行分析,然后把相邻出现次数比较多的几个字单词一个词来处理。基于统计的分词方法在一定程度上解决了搜索引擎词典更新的问题,并且有利于消除歧义。

在当前的搜索引擎中文分词中多多少少都会存在着一些难题没有解决,这可能是因为汉语真的太博大精深了,在当下计算机根本不可能完全理解。比如网络上流传的两句话“以前喜欢一个人,现在喜欢一个人”“以前谁都看不上,现在谁都看不上”。有些人第一眼看到这两句话也不太理解,相信搜索引擎在短期内更不会真正理解这两句话。

搜索引擎会把网页拆分出来的词按照词频进行排序,使用TF-IDF之类的算法以确定该网页主要和那些词相关,并进行相关度计算。搜索引擎会综合各方面因素来确定当前页面主要描述的内容。分词技术指导seo人员在进行网站内容建设和关键词布局时,可以把一个关键词分词更小的单位进行拆分布局,这样不仅可以加强网页和这个关键词的相关度,也会使得网页匹配出更多的关键词。







【本篇文章来源于】:www.9471541.com/bocairx【原文链接地址】:www.5445139.com/bocaiq3
温馨提示:
1、本内容转载于网络,版权归原作者所有!
2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

客服QQ/微信
860820528 周一至周日:09:00 - 22:00
十五年老品牌,学习网上创业赚钱,首先阿抖学社,值得信赖!
阿抖学社 版权所有!

本站内容均转载于互联网,并不代表阿抖学社立场!
拒绝任何人以任何形式在本站发表与中华人民共和国法律相抵触的言论!

小黑屋|广告服务|加入vip|APP下载|手机版| 阿抖学社 ( 蜀ICP备14032121号-4 ) |网站地图

GMT+8, 2026-3-3 10:32 , Processed in 0.081740 second(s), 31 queries .

快速回复 返回顶部 返回列表