欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
文本關(guān)鍵詞提取算法

http://www.cnblogs.com/onlytiancai/archive/2008/05/11/1192780.html

1.TF-IDF

昨天給大家演示簡(jiǎn)單的文本聚類(lèi),但要給每個(gè)聚類(lèi)再提取一兩個(gè)關(guān)鍵詞用于表示該聚類(lèi)。我們還是用TFIDF算法來(lái)做,因為這是比較簡(jiǎn)單的提取特征算法,不過(guò)這里的TF是指某詞在本聚類(lèi)內所有文章的詞頻,而不是本文章內出現的次數,IDF還是在所有文章里出現的倒文檔頻率。
原理:1、先給本聚類(lèi)內的所有文檔進(jìn)行分詞,然后用一個(gè)字典保存每個(gè)詞出現的次數
2、遍歷每個(gè)詞,得到每個(gè)詞在所有文檔里的IDF值,和在本聚類(lèi)內出現的次數(TF)相乘的值
3、用一個(gè)字典(key是詞,value是TF*IDF權重)來(lái)保存所有的詞信息,然后按value對字典排序,最后取權重排名靠前的幾個(gè)詞作為關(guān)鍵詞。


2.基于語(yǔ)義的統計語(yǔ)言模型

文章關(guān)鍵詞提取基礎件能夠在全面把握文章的中心思想的基礎上,提取出若干個(gè)代表文章語(yǔ)義內容的詞匯或短語(yǔ),相關(guān)結果可用于精化閱讀、語(yǔ)義查詢(xún)和快速匹配等。

采用基于語(yǔ)義的統計語(yǔ)言模型,所處理的文檔不受行業(yè)領(lǐng)域限制,且能夠識別出最新出現的新詞語(yǔ),所輸出的詞語(yǔ)可以配以權重。

文章關(guān)鍵詞提取組件的主要特色在于:
1、速度快:可以處理海量規模的網(wǎng)絡(luò )文本數據,平均每小時(shí)處理至少50萬(wàn)篇文檔;
2、處理精準:Top N的分析結果往往能反映出該篇文章的主干特征;
3、精準排序:關(guān)鍵詞按照影響權重排序,可以輸出權重值;
4、開(kāi)放式接口:文章關(guān)鍵詞提取組件作為T(mén)extParser的一部分,采用靈活的開(kāi)發(fā)接口,可以方便地融入到用戶(hù)的業(yè)務(wù)系統中,可以支持各種操作系統,各類(lèi)調用語(yǔ)言。

主要接口:
/*-----------------------------------------------------------------------
* 功能:初始化
* 參數:sLicenseCode - 授權碼
* 返回:true - 成功;false - 失敗
* 備注:在進(jìn)程中此函數必須在其他函數之前調用(只需執行一次)
------------------------------------------------------------------------*/
KWEXTRACT_API bool KDT_Init(const char*sLicenseCode=0);

/*-----------------------------------------------------------------------
* 功能:分析文本內容
* 參數:sText - [IN] 文本內容(以'\0'結束的字符串)
* nMaxCount - [IN] 最多抽取多少個(gè)關(guān)鍵詞
* bWeightFlag - [IN] 是否輸出權重
* 返回:特征詞字符串(以\t分隔,詞和權重間用空格分隔);出錯返回空串
* 備注:在進(jìn)程中此函數可以在特征詞抽取之前執行多次
------------------------------------------------------------------------*/
KWEXTRACT_API const char* KDT_ParseContent(constchar *sText, int nMaxCount, bool bWeightFlag=false);

//退出,釋放資源;進(jìn)程結束前須調用它釋放所占用的內存資源
KWEXTRACT_API void KDT_Exit();

//獲得錯誤消息
KWEXTRACT_API const char* KDT_GetLastErrMsg();

下載地址:http://www.lingjoin.com/download/LJParser.rar 
參考地址:http://www.lingjoin.com/product/ljparser.html

3.TF-IWF文檔關(guān)鍵詞自動(dòng)提取算法

針對現有TF-IWF的領(lǐng)域文檔關(guān)鍵詞快速提取算法.該算法使用簡(jiǎn)單統計并考慮詞長(cháng)、位置、詞性等啟發(fā)性知識計算詞權重,并通過(guò)文檔凈化、領(lǐng)域詞典分詞等方法提高了關(guān)鍵詞提取的速度及準確度.對523篇學(xué)生心理健康領(lǐng)域文檔的實(shí)驗結果表明,該算法提取的文檔關(guān)鍵詞質(zhì)量?jì)?yōu)于TF-IDF方法,且能在O(n)時(shí)間內完成.

4.基于分離模型的中文關(guān)鍵詞提取算法研究

關(guān)鍵詞提取在自動(dòng)文摘、信息檢索、文本分類(lèi)、文本聚類(lèi)等方面具有十分重要的作用。通常所說(shuō)的關(guān)鍵詞實(shí)際上有相當一部分是關(guān)鍵的短語(yǔ)和未登錄詞,而這部分關(guān)鍵詞的抽取是十分困難的問(wèn)題。該文提出將關(guān)鍵詞提取分為兩個(gè)問(wèn)題進(jìn)行處理:關(guān)鍵單詞提取和關(guān)鍵詞串提取,設計了一種基于分離模型的中文關(guān)鍵詞提取算法。該算法并針對關(guān)鍵單詞提取和關(guān)鍵詞串提取這兩個(gè)問(wèn)題設計了不同的特征以提高抽取的準確性。實(shí)驗表明,相對于傳統的關(guān)鍵詞提取算法,基于分離模型的中文關(guān)鍵詞提取算法效果更好。


5.基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取算法
關(guān)鍵詞提取是中文信息處理技術(shù)的熱點(diǎn)和難點(diǎn),基于統計信息的方法是其中一個(gè)重要分支。本文針對基于統計信息關(guān)鍵詞提取方法準確率低的問(wèn)題,提出基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取算法。算法通過(guò)依據小詞典的快速分詞、二次分詞、高維聚類(lèi)及關(guān)鍵詞甄選四個(gè)步驟實(shí)現關(guān)鍵詞的提取。理論分析和實(shí)驗顯示,基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取方法具備更好的穩定性、更高的效率及更準確的結果。 

6.基于語(yǔ)義的中文文本關(guān)鍵詞提取(SKE)算法

為克服傳統關(guān)鍵詞提取算法局限于字面匹配、缺乏語(yǔ)義理解的缺點(diǎn),提出一種基于語(yǔ)義的中文文本關(guān)鍵詞提取(SKE)算法。將詞語(yǔ)語(yǔ)義特征融入關(guān)鍵詞提取過(guò)程中,構建詞語(yǔ)語(yǔ)義相似度網(wǎng)絡(luò )并利用居間度密度度量詞語(yǔ)語(yǔ)義關(guān)鍵度。實(shí)驗結果表明,與基于統計特征的關(guān)鍵詞提取算法相比,SKE算法提取的關(guān)鍵詞能體現文檔的主題,更符合人們的感知邏輯,且算法性能較優(yōu)。

7.基于樸素貝葉斯模型的中文關(guān)鍵詞提取算法研究

提出了一種基于樸素貝葉斯模型的中文關(guān)鍵詞提取算法。該算法首先通過(guò)訓練過(guò)程獲得樸素貝葉斯模型中的各個(gè)參數,然后以之為基礎,在測試過(guò)程完成關(guān)鍵詞提取。實(shí)驗表明,相對于傳統的if*idf方法,該算法可從小規模的文檔集中提取出更為準確的關(guān)鍵詞,而且可靈活地增加表征詞語(yǔ)重要性的特征項,因而具有更好的可擴展性。



本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
文本相似度算法
基于LDA模型的文本聚類(lèi)研究
基于一種改進(jìn)的Wide&Deep 文本分類(lèi)在用戶(hù)身份識別上的實(shí)踐
詳述SEO的本質(zhì)與向量空間模型
中文文本聚類(lèi)(切詞以及Kmeans聚類(lèi))
視覺(jué)詞袋模型簡(jiǎn)介
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久