Sphinx
Sphinx Search 是由俄羅斯人Andrew Aksyonoff 開(kāi)發(fā)的高性能全文搜索軟件包,在GPL與商業(yè)協(xié)議雙許可協(xié)議下發(fā)行。
Sphinx支持從多種數據源獲取待檢索的數據,目前包括:
- MySQL數據庫
- PostgreSQL數據庫
- XML數據管道,允許索引其他用戶(hù)自定義格式
Sphinx的主要功能包括:
- 高速建立索引(可達10 MB/秒)
- 高性能搜索(在2-4 GB的文本上搜索,平均0.1秒內獲得結果)
- 高擴展性(在單一CPU上,實(shí)測可對100GB的文本建立索引,單一索引可包括100M文件 )
- 支持分布式檢索
- 支持基于短語(yǔ)和基于統計的復合結果排序機制
- 支持任意數量的文件字段(數值屬性或全文檢索屬性)
- 支持不同的搜索模式( “完全匹配” , “短語(yǔ)匹配”和“任一匹配” )
- 支持作為Mysql的存儲引擎
Coreseek 在Sphinx的基礎上,對Sphinx 的中文支持進(jìn)行增強,包括:
- 使用Python的可編程數據源
- 基于最大匹配算法的中文分詞模塊
- 支持GB18030編碼的數據源
下載:
- 基于復合最大匹配算法的中文分詞法 libmmseg 。該分詞庫在GPL協(xié)議下授權發(fā)布。
目前,Coreseek 不單獨提供補丁文件,有在Sphinx中啟用中文分詞的用戶(hù),請直接下載 Coreseek 全文檢索服務(wù)器。