最大匹配算法主要包括正向最大匹配算法、逆向最大匹配算法、双向匹配算法等。其主要原理都是切分出单字串,然后和词库进行比对,如果是一个词就记录下来, 否则通过增加或者减少一个单字,继续比较,一直还剩下一个单字则终止,如果该单字串无法切分,则作为未登录处理。
目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) ,而MM算法有三种:一种正向最大匹配、一种逆向最大匹配和双向匹配。本文以正向最大匹配算法为例介绍其基本.
基于6个网页-相关网页
高效分词器的设计 提出了一种改进的正向最大匹配算法(Forward Maximum Matching method,FMM),并结合Lucene 设计了一个中英文分词器。
基于4个网页-相关网页
高效分词器的设计 提出了一种改进的正向最大匹配算法(Forward Maximum Matching method,FMM),并结合Lucene 设计了一个中英文分词器。
基于2个网页-相关网页
除了最大匹配算法,许多其它消除歧义的算法也已经被得出。
Besides maximum matching, many other disambiguation algorithms have been proposed. Various information are used in the disambiguation process.
MMSEG系统实现了前面讨论的最大匹配算法的简单和复杂形式。
The MMSEG system implemented both simple and complex forms of the maximum matching algorithm discussed earlier.
切分过程系统利用改进正向最大匹配算法,提高了分词切分效率。
Maximum match method is optimized to improve the speed of the system during the word segmentation.
应用推荐