欢迎来到【巨野网站建设】小溪建站!专业的网站制作设计公司电话:19969902837
  • 巨野网站建设手机站:m.juyewww.com
您当前的位置:网站建设 > SEO网站优化

中文分词中双向匹配法的运用

时间:2018-04-25  来源:巨野网站建设  作者:小溪建站
  点击量:

  简单了解中文分词的过程,对于seoer是有好处的。分词是seoer最应该研究的知识点之一。研究明白搜索引擎是如何对用户输入的“关键词”拆分再重组对于网站优化有着莫大的好处。  中文分词技术之双向匹配法  

  简单了解中文分词的过程,对于seoer是有好处的。分词是seoer最应该研究的知识点之一。研究明白搜索引擎是如何对用户输入的“关键词”拆分再重组对于网站优化有着莫大的好处。

  中文分词技术之双向匹配法

  点击上面的图片可放大,其中“李彦宏为什么吃饭”并非单单是恶搞,是有人为了验证百度中文分词做的一个实验,有兴趣的同学可以阅读下《李彦宏为什么吃饭――中文分词实验》(链接地址:http://3w点keread点net/knowledge/904点html)。

  英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,词是最小的能够独立活动的有意义的语言成分,因此,中文词语分析是中文**的基础与关键。

  对中文的处理分为二元切分、最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。中文分词技术的分类包括但不仅限于:基于字典、词库匹配的分词方法;基于词频度统计的分词方法(机械分词法)和基于知识理解的分词方法。本文仅介绍最大切分即双向匹配法。

  双向匹配法:

  将正向最大匹配法与逆向最大匹配法组合。

  双向匹配法基本原理:

  先根据标点对文档进行粗切分,把文档分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小集处理。

  为何要使用最大匹配法与逆向最大匹配法相结合的方法而不单独使用其中一种:

  由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。

  柯瑞德苏州网站建设温馨小提示:偏正结构基本结构如下:

  ()的()、()地()

  同理,只要可以转化成这种形式的词语都是偏正结构,比如臭虫=臭的虫子。

  最大正向匹配法

  英文:MaximumMatchingMethod,简称:MM法。

  最大正向匹配基本思想为:

  假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理…… 如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。

  逆向最大匹配法

  英文:ReverseMaximumMatcingMethod,简称:RMM法。

  逆向最大匹配法基本思想为:

  从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。

  RMM法的基本原理与MM法相同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同

  统计结果表明 ,单纯使用正向最大匹配的错误率为 1/16 9,单纯使用逆向最大匹配的错误率为 1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是“硕士研究生 / 产”,而逆向最大匹配法利用逆向扫描,可得到正确的分词结果“硕士 / 研究 / 生产”。

相关文章
  发表评论 共有 条评论 
用户名:
验证码: 匿名发表
【巨野网站建设】小溪建站  鲁ICP备18038385号-2  电话:199699028376  微信:xiaoxi8121  QQ:281598883   
'); })();