HanLP是由一系列模型與算法組成的Java工具包,目標是普及自然語(yǔ)言處理在生產(chǎn)環(huán)境中的應用。不僅僅是分詞,而是提供詞法分析、句法分析、語(yǔ)義理解等完備的功能。HanLP具備功能完善、性能高效、架構清晰、語(yǔ)料時(shí)新、可自定義的特點(diǎn)。
DownloadHanLP完全開(kāi)源,包括詞典。不依賴(lài)其他jar,底層采用了一系列高速的數據結構,如雙數組Trie樹(shù)、DAWG、AhoCorasickDoubleArrayTrie等,這些基礎件都是開(kāi)源的。官方模型訓練自2014人民日報語(yǔ)料庫,您也可以使用內置的工具訓練自己的模型。
Star Me通過(guò)工具類(lèi)HanLP您可以一句話(huà)調用所有功能,文檔詳細,開(kāi)箱即用。底層算法經(jīng)過(guò)精心優(yōu)化,極速分詞模式下可達2,000萬(wàn)字/秒,內存僅需120MB。在IO方面,詞典加載速度極快,只需500 ms即可快速啟動(dòng)。HanLP經(jīng)過(guò)多次重構,歡迎二次開(kāi)發(fā)。
DocumentationHanLP v1.2.7的特征:
HanLP產(chǎn)品初始知識產(chǎn)權歸上海林原信息科技有限公司所有,任何人和企業(yè)可以無(wú)償使用,可以對產(chǎn)品、源代碼進(jìn)行任何形式的修改, 可以打包在其他產(chǎn)品中進(jìn)行銷(xiāo)售。任何使用了HanLP的全部或部分功能、詞典、模型的項目、產(chǎn)品或文章等形式的成果必須顯式注明HanLP及此項目主頁(yè)。

最新版本:HanLP v1.2.7
聯(lián)系客服