Coreseek:中英文混合分词
- coreseek是针对中文搜索引擎在sphinx搜索引擎上添加了中文分词功能
- 中文分词使用的是Chih-Hao Tsai的MMSEG算法
- 提供了分词字典,同义词及特殊词的扩展
该文主要针对分词字典的扩展,默认数据中只针对中文词语进行分词,但一些行业用词需要涉及到中英混词的分词效果,针对该特性则需要修改源码来实现
开启英文字符查找
源码修改:针对mmseg-3.2.14版本
Src/css/segmenter.cpp,该为中文分词的核心文件
查找const u1* Segmenter::peekToken(u2& aLen, u2& aSymLen, u2 n)
if(tag == 'w' || tag == 'm' || tag == 'e') break;
针对断字符(w)、数字(m)、英文字母(e)不进行字典查询
修改为:
if(tag == 'w' || tag == 'm')// || tag == 'e' break;
将英文字母移除判断即可
进行大小写转换
在实际查询过程中,英文是会出现大小写,但大小写通常是无区别的,所以还需要将中文分词进行内部的大小写转换,保证字典的匹对
- 生成的字典内部统一为小写字母,这点需要在外部实现,没有做内部处理
- 将需要分词的内容进行小写转换
Src/css/segmenter.cpp
查找void Segmenter::setBuffer(u1* buf, u4 length)
头部添加:
int iCode = 0; u2 len = 0; u1* ptr = buf; for ( int i=0; i<length; i+=len ){ //to lower query iCode = csrUTF8Decode(ptr,len); if(iCode == 0) break; if(iCode >= 'A' && iCode <= 'Z'){ *ptr = m_lower->toLower(*ptr); } ptr += len; }
取消以下语句的注释:
if(!m_lower) m_lower = ToLower::Get();
src/css/Segmenter.h
查找:static ToLowerImpl* m_lower;
修改为:ToLowerImpl* m_lower;
并取消注释
以上语句完成英文字符的大小写转换,用的是分词内部的功能
处理可能产生的内存错误
运行会产生分词的内存错误,估计是因为分词算法针对的是中文字符,而一个英文字符或者其他多余字符占用的字节长度与中文字符不一致而导致
Src/css/mmthunk.cpp
查找int MMThunk::Tokenize()
while(base<=m_max_length){ Chunk chunk;
下面添加
if(!m_charinfos[base]){ base++; continue; }
在计算过程中会指向一个不存在的地址,所以需要判断下
如果有人知道这个问题的原因及正确的解决方法,希望能告知下我,谢谢