http://www.cnblogs.com/onlytiancai/archive/2008/05/11/1192780.html
1.TF-IDF
昨天給大家演示簡(jiǎn)單的文本聚類(lèi),但要給每個(gè)聚類(lèi)再提取一兩個(gè)關(guān)鍵詞用于表示該聚類(lèi)。我們還是用TFIDF算法來(lái)做,因為這是比較簡(jiǎn)單的提取特征算法,不過(guò)這里的TF是指某詞在本聚類(lèi)內所有文章的詞頻,而不是本文章內出現的次數,IDF還是在所有文章里出現的倒文檔頻率。
原理:1、先給本聚類(lèi)內的所有文檔進(jìn)行分詞,然后用一個(gè)字典保存每個(gè)詞出現的次數
2、遍歷每個(gè)詞,得到每個(gè)詞在所有文檔里的IDF值,和在本聚類(lèi)內出現的次數(TF)相乘的值
3、用一個(gè)字典(key是詞,value是TF*IDF權重)來(lái)保存所有的詞信息,然后按value對字典排序,最后取權重排名靠前的幾個(gè)詞作為關(guān)鍵詞。
2.基于語(yǔ)義的統計語(yǔ)言模型
文章關(guān)鍵詞提取基礎件能夠在全面把握文章的中心思想的基礎上,提取出若干個(gè)代表文章語(yǔ)義內容的詞匯或短語(yǔ),相關(guān)結果可用于精化閱讀、語(yǔ)義查詢(xún)和快速匹配等。
采用基于語(yǔ)義的統計語(yǔ)言模型,所處理的文檔不受行業(yè)領(lǐng)域限制,且能夠識別出最新出現的新詞語(yǔ),所輸出的詞語(yǔ)可以配以權重。
文章關(guān)鍵詞提取組件的主要特色在于:
1、速度快:可以處理海量規模的網(wǎng)絡(luò )文本數據,平均每小時(shí)處理至少50萬(wàn)篇文檔;
2、處理精準:Top N的分析結果往往能反映出該篇文章的主干特征;
3、精準排序:關(guān)鍵詞按照影響權重排序,可以輸出權重值;
4、開(kāi)放式接口:文章關(guān)鍵詞提取組件作為T(mén)extParser的一部分,采用靈活的開(kāi)發(fā)接口,可以方便地融入到用戶(hù)的業(yè)務(wù)系統中,可以支持各種操作系統,各類(lèi)調用語(yǔ)言。
主要接口:
/*-----------------------------------------------------------------------
* 功能:初始化
* 參數:sLicenseCode - 授權碼
* 返回:true - 成功;false - 失敗
* 備注:在進(jìn)程中此函數必須在其他函數之前調用(只需執行一次)
------------------------------------------------------------------------*/
KWEXTRACT_API bool KDT_Init(const char*sLicenseCode=0);
/*-----------------------------------------------------------------------
* 功能:分析文本內容
* 參數:sText - [IN] 文本內容(以'\0'結束的字符串)
* nMaxCount - [IN] 最多抽取多少個(gè)關(guān)鍵詞
* bWeightFlag - [IN] 是否輸出權重
* 返回:特征詞字符串(以\t分隔,詞和權重間用空格分隔);出錯返回空串
* 備注:在進(jìn)程中此函數可以在特征詞抽取之前執行多次
------------------------------------------------------------------------*/
KWEXTRACT_API const char* KDT_ParseContent(constchar *sText, int nMaxCount, bool bWeightFlag=false);
//退出,釋放資源;進(jìn)程結束前須調用它釋放所占用的內存資源
KWEXTRACT_API void KDT_Exit();
//獲得錯誤消息
KWEXTRACT_API const char* KDT_GetLastErrMsg();
下載地址:http://www.lingjoin.com/download/LJParser.rar
參考地址:http://www.lingjoin.com/product/ljparser.html
3.TF-IWF文檔關(guān)鍵詞自動(dòng)提取算法
針對現有TF-IWF的領(lǐng)域文檔關(guān)鍵詞快速提取算法.該算法使用簡(jiǎn)單統計并考慮詞長(cháng)、位置、詞性等啟發(fā)性知識計算詞權重,并通過(guò)文檔凈化、領(lǐng)域詞典分詞等方法提高了關(guān)鍵詞提取的速度及準確度.對523篇學(xué)生心理健康領(lǐng)域文檔的實(shí)驗結果表明,該算法提取的文檔關(guān)鍵詞質(zhì)量?jì)?yōu)于TF-IDF方法,且能在O(n)時(shí)間內完成.
4.基于分離模型的中文關(guān)鍵詞提取算法研究
5.基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取算法
關(guān)鍵詞提取是中文信息處理技術(shù)的熱點(diǎn)和難點(diǎn),基于統計信息的方法是其中一個(gè)重要分支。本文針對基于統計信息關(guān)鍵詞提取方法準確率低的問(wèn)題,提出基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取算法。算法通過(guò)依據小詞典的快速分詞、二次分詞、高維聚類(lèi)及關(guān)鍵詞甄選四個(gè)步驟實(shí)現關(guān)鍵詞的提取。理論分析和實(shí)驗顯示,基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取方法具備更好的穩定性、更高的效率及更準確的結果。
6.基于語(yǔ)義的中文文本關(guān)鍵詞提取(SKE)算法
為克服傳統關(guān)鍵詞提取算法局限于字面匹配、缺乏語(yǔ)義理解的缺點(diǎn),提出一種基于語(yǔ)義的中文文本關(guān)鍵詞提取(SKE)算法。將詞語(yǔ)語(yǔ)義特征融入關(guān)鍵詞提取過(guò)程中,構建詞語(yǔ)語(yǔ)義相似度網(wǎng)絡(luò )并利用居間度密度度量詞語(yǔ)語(yǔ)義關(guān)鍵度。實(shí)驗結果表明,與基于統計特征的關(guān)鍵詞提取算法相比,SKE算法提取的關(guān)鍵詞能體現文檔的主題,更符合人們的感知邏輯,且算法性能較優(yōu)。
7.基于樸素貝葉斯模型的中文關(guān)鍵詞提取算法研究
提出了一種基于樸素貝葉斯模型的中文關(guān)鍵詞提取算法。該算法首先通過(guò)訓練過(guò)程獲得樸素貝葉斯模型中的各個(gè)參數,然后以之為基礎,在測試過(guò)程完成關(guān)鍵詞提取。實(shí)驗表明,相對于傳統的if*idf方法,該算法可從小規模的文檔集中提取出更為準確的關(guān)鍵詞,而且可靈活地增加表征詞語(yǔ)重要性的特征項,因而具有更好的可擴展性。
聯(lián)系客服