常用文本分類(lèi)技術(shù)方法
分類(lèi)是人類(lèi)一種最基本的認知形式。所謂“文本分類(lèi)”是指在給定的分類(lèi)體系下,根據文本的內容(自動(dòng))確定文本所屬類(lèi)別的過(guò)程。20世紀90年代以前,占主導地位的文本分類(lèi)方法一直是基于知識工程的分類(lèi)方法,即由專(zhuān)業(yè)人員手工進(jìn)行分類(lèi)。人工分類(lèi)非常費時(shí),而且效率很低。90年代以來(lái),隨著(zhù)文本信息的快速增長(cháng),特別是WWW在線(xiàn)文本信息的激增,眾多的統計方法和機器學(xué)習方法被應用于自動(dòng)文本分類(lèi)。目前英文自動(dòng)分類(lèi)己經(jīng)取得了豐碩的成果,提出了多種成熟的分類(lèi)方法,基本上可以分為三大類(lèi)。一種是基于統計的方法,如KNN、Na?ve Bayes、支持向量機、類(lèi)中心向量、最大熵模型、回歸模型等方法;另一種是基于連接的方法,即人工神經(jīng)網(wǎng)絡(luò );還有一種是基于規則的方法,如決策樹(shù)、關(guān)聯(lián)規則等,這些方法的主要區別在于規則獲取方法。
一、 問(wèn)題描述
由于事先已存在關(guān)于這些文本信息的可以使用的分類(lèi)表(一般由領(lǐng)域專(zhuān)家事先制訂,或通過(guò)聚類(lèi)處理來(lái)獲?。?,所以,文本的分類(lèi)處理常被研究人員看作是一種“有監督的學(xué)習過(guò)程”。它根據一個(gè)已經(jīng)被標注的訓練文檔集合,找到文檔特征和文檔類(lèi)別之間的關(guān)系模型,然后利用這種學(xué)習得到的關(guān)系模型對新的文檔進(jìn)行類(lèi)別判斷。
1.
訓練文檔集合選擇是否合適對文檔分類(lèi)器的性能有很大影響。訓練文檔集合應該能夠廣泛地代表分類(lèi)系統所要處理的、實(shí)際存在的各個(gè)文檔類(lèi)別中的文檔。一般而言,訓練文檔集合應該是公認的、經(jīng)人工分類(lèi)的語(yǔ)料庫。
2.
建立文檔表示模型是一個(gè)重要的技術(shù)問(wèn)題,它將決定選用什么樣的文檔特征(或屬性)來(lái)表征文檔。目前的文本分類(lèi)方法或分類(lèi)系統,絕大多數都是以詞語(yǔ)來(lái)表征文檔的,至于具體形式,則可能是關(guān)鍵詞或短語(yǔ)、主題詞、概念等。當然,對于不同語(yǔ)言的文本,在獲取文檔的詞語(yǔ)屬性時(shí),需要采用不同的技術(shù),例如抽詞或切分詞。鑒于中文文本信息的特殊性,有些中文文本分類(lèi)系統采用了基于統計的N-gram屬性,以避開(kāi)詞語(yǔ)切粉的困擾。
3.
對于使用自然語(yǔ)言表達的文檔集合來(lái)說(shuō),文檔特征是開(kāi)放的、無(wú)限制的。一個(gè)分類(lèi)系統對于所獲取的特征必須進(jìn)行篩選和優(yōu)化,從特征的全集中抽取一個(gè)最優(yōu)的特征子集。只有這樣,才能保證分類(lèi)算法的效率。前面 8.1.4中已經(jīng)講了這一問(wèn)題,在這里就不詳細介紹了。
4.
實(shí)際上也就是使用某種方法,建立從文檔特征(或屬性)到文檔類(lèi)別的映射關(guān)系,這是文本分類(lèi)的核心問(wèn)題?,F有的分類(lèi)方法有KNN、Na?ve Bayes、支持向量機、類(lèi)中心向量、最大熵模型、回歸模型等,但最常用的是KNN方法和支持向量機方法,這兩重方法分類(lèi)效果不錯,而且具有較強的穩定性。
5.
文本分類(lèi)系統建立以后,需要時(shí)常對系統使用的分類(lèi)方法或分類(lèi)器進(jìn)行性能評價(jià)分析,這是分類(lèi)處理流程中的一個(gè)重要環(huán)節。同時(shí),找出能夠真正反映文檔分類(lèi)內在特征的性能評估模型,對改進(jìn)和完善分類(lèi)系統也具有指導意義。
(一)它屬于傳統統計模式識別算法。
基本思想:給定一個(gè)經(jīng)過(guò)分類(lèi)的訓練文檔集合,在對新文檔(即測試文檔或待分類(lèi)文檔)進(jìn)行分類(lèi)時(shí),首先從訓練文檔集合中找出與測試文檔最相關(guān)的k篇文檔,然后按照這k篇文檔所屬的類(lèi)別信息來(lái)對該測試文檔進(jìn)行分類(lèi)處理。
(二)分類(lèi)流程:
1.對訓練文檔集合中的每一篇訓練文檔形成文檔的向量表示。
分類(lèi)情況用一個(gè)分量值為0或1的類(lèi)別向量表示。若類(lèi)別向量的第j個(gè)分量為1,表示此文檔屬于類(lèi)j,若為0則表示不屬于。
2.對某一給定的測試文檔d,通過(guò)計算文檔之間的相似度,在訓練集合中找到與其最相似的k篇訓練文檔,即k個(gè)最近鄰居(用集合kNN表示)。
顯然,k個(gè)最近鄰居可能分屬于m(m<k)個(gè)不同的類(lèi)別。
3.以每一個(gè)最相似的文檔dj(dj屬于kNN)與測試文檔d的相似度sim(d,dj)作為權值,計算k個(gè)最相鄰文檔的分類(lèi)向量的加權和,以此作為待分類(lèi)文檔d的分類(lèi)參考向量。
測試文檔d屬于類(lèi)別ci的決策規則可以用下列式子表示:
4.根據score(d,ci)(i=1,2,…,m)的值,最終決定測試文檔d的類(lèi)別歸屬。有兩種方法:
A:如果測試文檔d只屬于某一個(gè)類(lèi),則可以取score(d,ci)(i=1,2,…,m)中的最大值所對應的類(lèi)別作為d的類(lèi)別;
B:將所有的score(d,ci)(i=1,2,…,m)值進(jìn)行排序,并指定一個(gè)閾值,測試文檔d屬于超過(guò)該指定閾值的所有類(lèi)。
(三)評價(jià)
優(yōu)點(diǎn):它是一種“懶惰”的分類(lèi)算法,不需要預先學(xué)習,而且分類(lèi)精度高,不存在漏識問(wèn)題;
缺點(diǎn):分類(lèi)速度與訓練文檔個(gè)數有關(guān),對每一個(gè)測試文檔,都必須求解它與訓練文檔庫中所有文檔的相似度,時(shí)間復雜度為O(n1*n2)( n1,n2分別為訓練文檔總數和測試文檔總數)。
改進(jìn):
相似度的計算
參數k的確定
聯(lián)系客服