在线观看免费精品国自产_ 文本關(guān)鍵詞提取算法

http://www.cnblogs.com/onlytiancai/archive/2008/05/11/1192780.html

1.TF-IDF

昨天給大家演示簡(jiǎn)單的文本聚類(lèi)，但要給每個(gè)聚類(lèi)再提取一兩個(gè)關(guān)鍵詞用于表示該聚類(lèi)。我們還是用TFIDF算法來(lái)做，因為這是比較簡(jiǎn)單的提取特征算法，不過(guò)這里的TF是指某詞在本聚類(lèi)內所有文章的詞頻，而不是本文章內出現的次數，IDF還是在所有文章里出現的倒文檔頻率。
原理：1、先給本聚類(lèi)內的所有文檔進(jìn)行分詞，然后用一個(gè)字典保存每個(gè)詞出現的次數
2、遍歷每個(gè)詞，得到每個(gè)詞在所有文檔里的IDF值，和在本聚類(lèi)內出現的次數（TF）相乘的值
3、用一個(gè)字典(key是詞，value是TF*IDF權重)來(lái)保存所有的詞信息，然后按value對字典排序，最后取權重排名靠前的幾個(gè)詞作為關(guān)鍵詞。

2.基于語(yǔ)義的統計語(yǔ)言模型

文章關(guān)鍵詞提取基礎件能夠在全面把握文章的中心思想的基礎上，提取出若干個(gè)代表文章語(yǔ)義內容的詞匯或短語(yǔ)，相關(guān)結果可用于精化閱讀、語(yǔ)義查詢(xún)和快速匹配等。

采用基于語(yǔ)義的統計語(yǔ)言模型，所處理的文檔不受行業(yè)領(lǐng)域限制，且能夠識別出最新出現的新詞語(yǔ)，所輸出的詞語(yǔ)可以配以權重。

文章關(guān)鍵詞提取組件的主要特色在于：
1、速度快：可以處理海量規模的網(wǎng)絡(luò )文本數據，平均每小時(shí)處理至少50萬(wàn)篇文檔；
2、處理精準：Top N的分析結果往往能反映出該篇文章的主干特征；
3、精準排序：關(guān)鍵詞按照影響權重排序，可以輸出權重值；
4、開(kāi)放式接口：文章關(guān)鍵詞提取組件作為T(mén)extParser的一部分，采用靈活的開(kāi)發(fā)接口，可以方便地融入到用戶(hù)的業(yè)務(wù)系統中，可以支持各種操作系統，各類(lèi)調用語(yǔ)言。

主要接口：
/*-----------------------------------------------------------------------
* 功能：初始化
* 參數：sLicenseCode - 授權碼
* 返回：true - 成功；false - 失敗
* 備注：在進(jìn)程中此函數必須在其他函數之前調用（只需執行一次）
------------------------------------------------------------------------*/
KWEXTRACT_API bool KDT_Init(const char*sLicenseCode=0);

/*-----------------------------------------------------------------------
* 功能：分析文本內容
* 參數：sText - [IN] 文本內容（以'\0'結束的字符串）
* nMaxCount - [IN] 最多抽取多少個(gè)關(guān)鍵詞
* bWeightFlag - [IN] 是否輸出權重
* 返回：特征詞字符串（以\t分隔，詞和權重間用空格分隔）；出錯返回空串
* 備注：在進(jìn)程中此函數可以在特征詞抽取之前執行多次
------------------------------------------------------------------------*/
KWEXTRACT_API const char* KDT_ParseContent(constchar *sText, int nMaxCount, bool bWeightFlag=false);

//退出，釋放資源；進(jìn)程結束前須調用它釋放所占用的內存資源
KWEXTRACT_API void KDT_Exit();

//獲得錯誤消息
KWEXTRACT_API const char* KDT_GetLastErrMsg();

下載地址：http://www.lingjoin.com/download/LJParser.rar
參考地址：http://www.lingjoin.com/product/ljparser.html

3.TF-IWF文檔關(guān)鍵詞自動(dòng)提取算法

針對現有TF-IWF的領(lǐng)域文檔關(guān)鍵詞快速提取算法.該算法使用簡(jiǎn)單統計并考慮詞長(cháng)、位置、詞性等啟發(fā)性知識計算詞權重,并通過(guò)文檔凈化、領(lǐng)域詞典分詞等方法提高了關(guān)鍵詞提取的速度及準確度.對523篇學(xué)生心理健康領(lǐng)域文檔的實(shí)驗結果表明,該算法提取的文檔關(guān)鍵詞質(zhì)量?jì)?yōu)于TF-IDF方法,且能在O(n)時(shí)間內完成.

4.基于分離模型的中文關(guān)鍵詞提取算法研究

關(guān)鍵詞提取在自動(dòng)文摘、信息檢索、文本分類(lèi)、文本聚類(lèi)等方面具有十分重要的作用。通常所說(shuō)的關(guān)鍵詞實(shí)際上有相當一部分是關(guān)鍵的短語(yǔ)和未登錄詞,而這部分關(guān)鍵詞的抽取是十分困難的問(wèn)題。該文提出將關(guān)鍵詞提取分為兩個(gè)問(wèn)題進(jìn)行處理:關(guān)鍵單詞提取和關(guān)鍵詞串提取,設計了一種基于分離模型的中文關(guān)鍵詞提取算法。該算法并針對關(guān)鍵單詞提取和關(guān)鍵詞串提取這兩個(gè)問(wèn)題設計了不同的特征以提高抽取的準確性。實(shí)驗表明,相對于傳統的關(guān)鍵詞提取算法,基于分離模型的中文關(guān)鍵詞提取算法效果更好。

5.基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取算法
關(guān)鍵詞提取是中文信息處理技術(shù)的熱點(diǎn)和難點(diǎn)，基于統計信息的方法是其中一個(gè)重要分支。本文針對基于統計信息關(guān)鍵詞提取方法準確率低的問(wèn)題，提出基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取算法。算法通過(guò)依據小詞典的快速分詞、二次分詞、高維聚類(lèi)及關(guān)鍵詞甄選四個(gè)步驟實(shí)現關(guān)鍵詞的提取。理論分析和實(shí)驗顯示，基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取方法具備更好的穩定性、更高的效率及更準確的結果。

6.基于語(yǔ)義的中文文本關(guān)鍵詞提取(SKE)算法

為克服傳統關(guān)鍵詞提取算法局限于字面匹配、缺乏語(yǔ)義理解的缺點(diǎn)，提出一種基于語(yǔ)義的中文文本關(guān)鍵詞提取(SKE)算法。將詞語(yǔ)語(yǔ)義特征融入關(guān)鍵詞提取過(guò)程中，構建詞語(yǔ)語(yǔ)義相似度網(wǎng)絡(luò )并利用居間度密度度量詞語(yǔ)語(yǔ)義關(guān)鍵度。實(shí)驗結果表明，與基于統計特征的關(guān)鍵詞提取算法相比，SKE算法提取的關(guān)鍵詞能體現文檔的主題，更符合人們的感知邏輯，且算法性能較優(yōu)。

7.基于樸素貝葉斯模型的中文關(guān)鍵詞提取算法研究

提出了一種基于樸素貝葉斯模型的中文關(guān)鍵詞提取算法。該算法首先通過(guò)訓練過(guò)程獲得樸素貝葉斯模型中的各個(gè)參數，然后以之為基礎，在測試過(guò)程完成關(guān)鍵詞提取。實(shí)驗表明，相對于傳統的if*idf方法，該算法可從小規模的文檔集中提取出更為準確的關(guān)鍵詞，而且可靈活地增加表征詞語(yǔ)重要性的特征項，因而具有更好的可擴展性。

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久