首页>>新闻中心>>建设知识

中文分词

来源: 本站    发布时间: 2015-09-21 15:03    阅读次数:

分词是中文搜索引擎特有的步骤。搜索引擎存储和处理及用户搜索都是以词为基础的。英文等语言单词也单词之间有空格分隔,搜索引擎引程序可以直接把句 子划分为单词的集合,而中文词和词之间没有任何分隔符,一个句子的所有字和词都是连在一起的。搜索引擎必须首先分辨率哪几个字组成一个词,那些字本身就是 一个词。比如“减肥方法”讲分词为"减肥"和“方法”两个词。

基于词典匹配的方法是指,讲待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫面到词典中已有的词条则匹配成功,或者说切分出一个词。

按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配,将扫描方向和长度优先先混合,又可以产生正向最大匹配,逆向最大匹配等不同方法。

词典匹配方法计算简单,起准确度在很大程度上取决于词典的完整性和根性情况。

基于统计的分词方法指的是分析大量的文字样本,计算出字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词,基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。

基于词典匹配和基于统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词、消除歧义。

一起设计吧
上一篇: 地址库
BACK