摘要:隨著(zhù)互聯(lián)網(wǎng)信息數量的急劇增加,文本信息過(guò)濾技術(shù)越來(lái)越受到重視,基于統計的文本過(guò)濾方法比較適用于主題過(guò)濾,對具有傾向性的文本進(jìn)行過(guò)濾的效果不理想,本文介紹了文本信息過(guò)濾技術(shù)的發(fā)展歷史和研究現狀,闡述了中文文本過(guò)濾的特點(diǎn)和要求,提出了一個(gè)傾向性文本過(guò)濾的方法,重點(diǎn)分析了中文文本過(guò)濾技術(shù)的關(guān)鍵技術(shù)和評價(jià)標準。
關(guān)鍵詞 :文本過(guò)濾、語(yǔ)義分析、語(yǔ)義模式
1 .引言
隨著(zhù)信息社會(huì )的不斷發(fā)展,人們面臨的信息日益劇增,如何更準確、有效地找到自己感興趣的信息,過(guò)濾掉與需求無(wú)關(guān)的“垃圾”信息,成為了一個(gè)重要的研究問(wèn)題,內容過(guò)濾技術(shù)也就應運而生。目前,網(wǎng)上信息大多是文本形式,所以?xún)热葸^(guò)濾大多是針對文本的。所謂文本過(guò)濾指的是從大量文本中找出滿(mǎn)足用戶(hù)需求的文本的過(guò)程,它對于文本信息處理具有重要意義,另外,它也可以實(shí)現對網(wǎng)絡(luò )中不良信息的自動(dòng)過(guò)濾,從而保障網(wǎng)絡(luò )的安全。網(wǎng)上的不良信息包括暴力、色情、邪教等主題,主題性信息過(guò)濾大多采用基于統計的過(guò)濾技術(shù),利用關(guān)鍵詞匹配技術(shù)來(lái)實(shí)現,這種方法只能過(guò)濾出與主題相關(guān)的文本,不能區分出文章的立場(chǎng)和態(tài)度。而有些文章雖然也包含相關(guān)的主題,但卻可能對主題持有不同的立場(chǎng),要解決這個(gè)問(wèn)題,除了要進(jìn)行主題分析外,還要對文本進(jìn)行語(yǔ)義分析,理解文本表達的主題思想,彌補統計方法缺乏語(yǔ)義信息的弊端,從而更精確地滿(mǎn)足用戶(hù)的信息需求。本文提出了一個(gè)基于語(yǔ)義分析的信息過(guò)濾方法,除了對文本進(jìn)行語(yǔ)義分析外,還充分考慮了文章主題詞所在特征區域的重要性,在計算文本的傾向性指標時(shí)增加了特征區域權重因子,能更準確地過(guò)濾出傾向性文本。
2 .文本過(guò)濾技術(shù)
文本信息過(guò)濾是指依據一定的標準和運用一定的工具從大量的文本數據流中選取用戶(hù)需要的信息或剔除用戶(hù)不需要的信息的方法,文本過(guò)濾和文本檢索及文本分類(lèi)有很大的相似之處。
2.1 文本信息過(guò)濾技術(shù)發(fā)展
1958 年 Luhn 提出的“商業(yè)智能機器”是信息過(guò)濾的最早雛形。 Luhn 所提出的構想涉及了信息過(guò)濾系統的每一個(gè)方面,為后來(lái)的文本過(guò)濾做了很好的鋪墊。1982 年Dernzing 首次提出了“信息過(guò)濾”的概念, 在他描述的例子中, 可以通過(guò)“內容過(guò)濾器”識別出緊郵件和一般郵件,以此提示對信息內容進(jìn)行有效控制。1987 年Malone 等人提出了三種信息選擇模式,即認知、經(jīng)濟、社會(huì )。認知模式相當于“基于內容的信息過(guò)濾”;經(jīng)濟模式來(lái)自于 Denning 的“閾值接受思想”;社會(huì )模式是他最重要的貢獻,即“協(xié)同過(guò)濾”。 1989 年,美國消息理解大會(huì ) (Message Understand Conference)成立,將自然語(yǔ)言處理技術(shù)引入到信息研究中來(lái),極大地推動(dòng)了信息過(guò)濾的發(fā)展。20 世紀 90 年代以來(lái),著(zhù)名的文本檢索會(huì )議TREC(Text Retrieval Conference)每年都把文本過(guò)濾當作一個(gè)很重要的一個(gè)研究?jì)热?,這很大程度上促進(jìn)了文本過(guò)濾技術(shù)的發(fā)展。從 TREC-4 開(kāi)始,增加了文本過(guò)濾的項目;從 1997 年 TREC-6開(kāi)始,文本過(guò)濾主要任務(wù)確定下來(lái);TREC-7 又將信息分為自適應過(guò)濾、批過(guò)濾和分流過(guò)濾,使得對信息過(guò)濾的研究更加深入。 隨著(zhù)信息過(guò)濾需求的增長(cháng)和研究的深入發(fā)展, 其他領(lǐng)域的許多技術(shù)被應用到文本過(guò)濾中來(lái),并取得了很好的效果。 如信息檢索中的相關(guān)反饋、偽相關(guān)反饋以及文本檢索中的向量空間模型技術(shù),文本分類(lèi)和聚類(lèi)技術(shù),機器學(xué)習以及語(yǔ)言底層的處理技術(shù)都被應用到信息過(guò)濾中來(lái),極大地拓展了信息過(guò)濾的研究廣度,推動(dòng)著(zhù)信息過(guò)濾理論研究與技術(shù)應用不斷走向完善與成熟。
2.2 中文文本過(guò)濾技術(shù)
中文文本過(guò)濾技術(shù)在最近幾年得到了業(yè)內人士的普遍關(guān)注。國內對于信息過(guò)濾研究起步較晚,但是目前發(fā)展也很快,尤其是隨著(zhù)信息安全、信息定制等應用在國內的興起,對信息過(guò)濾技術(shù)的研究也得到人們普遍的重視。其中,中科院計算所、復旦大學(xué)都曾參加了 TREC 評測中的信息過(guò)濾任務(wù),取得了較好的成績(jì);哈工大、南開(kāi)大學(xué)等重點(diǎn)科研單位也已經(jīng)開(kāi)始對信息過(guò)濾進(jìn)行究。然而基于目前提出的中文文本過(guò)濾模型開(kāi)發(fā)出的試驗系統在不同的領(lǐng)域達到的過(guò)濾精度也不相同。由于中英文語(yǔ)法差異較大,對于文本信息的預處理方法不同,因此面向英文的眾多過(guò)濾算法是否適合中文文本過(guò)濾還有待檢驗。
3.中文文本過(guò)濾的關(guān)鍵技術(shù)
文本過(guò)濾工作基本上可以概括為兩項:一是建立用戶(hù)需求模型,表達用戶(hù)對信息的具體需求;二是匹配技術(shù),即用戶(hù)模板與文本匹配技術(shù)。因此,文本過(guò)濾的主要流程首先是根據用戶(hù)的信息求,建立用戶(hù)需求模型,然后在相應的文本流中搜索符合用戶(hù)需求的文本,同時(shí)利用反饋改進(jìn)需求模型。
3.1 中文分詞
中文分詞是對中文句子的切分技術(shù),是中文文本最重要的預處理技術(shù)。自動(dòng)分詞過(guò)程是指從信息處理需要出發(fā),按照特定的規范,對漢語(yǔ)按分詞單位進(jìn)行劃分的過(guò)程自動(dòng)分詞是漢語(yǔ)所特有的研究課題,英語(yǔ)、法語(yǔ)等印歐語(yǔ)種,詞與詞之間存在著(zhù)自然的分割,一般不存在分詞的問(wèn)題。 中文自動(dòng)分詞已經(jīng)研究了 20 多年,但是目前仍然是制約中文信息處理的瓶頸,漢語(yǔ)除了連續書(shū)寫(xiě)之外,漢語(yǔ)詞匯沒(méi)有形態(tài)變化,也沒(méi)有各種詞的變格,缺乏自然的分割信息。漢語(yǔ)語(yǔ)法的研究多源于印歐語(yǔ)法的研究,分析結果對詞有用的信息較少;漢語(yǔ)的詞序義極為靈活,相對的語(yǔ)法限制也較少。在詞匯數量上,一般的印歐語(yǔ)種的詞匯最多為幾十萬(wàn)詞,而漢語(yǔ)的詞匯高達幾百萬(wàn)乃至上千萬(wàn)。一個(gè)漢字序列可能有幾種不同的切分結果,產(chǎn)生歧義現象。這些都給自動(dòng)分詞造成了極大的困難。宏觀(guān)上,主要存在語(yǔ)言學(xué)和計算機科學(xué)等兩方面的困難。 漢語(yǔ)分詞系統的實(shí)現及效果依賴(lài)于分詞理論與方法。目前國內分詞系統所采用的或者正在研究的方法基本上分為以下幾類(lèi):
(1)機械分詞法:主要有最大匹配法、 逆向最大匹配法、 逐詞匹配法、 部件詞典法、詞頻統計法、設立標志法等。
(2)語(yǔ)義分詞法:語(yǔ)義分詞法引入了語(yǔ)義分析,對自然語(yǔ)言自身的語(yǔ)言信息進(jìn)行更多的處理,如擴充轉移網(wǎng)絡(luò )法、知識分詞語(yǔ)義分析法、鄰接約束法、綜合匹配法、后綴分詞法等。
(3)人工智能法,又稱(chēng)理解分詞法,如專(zhuān)家系統法、神經(jīng)網(wǎng)絡(luò )方法等。
3.2 過(guò)濾模型
信息過(guò)濾系統的性能,關(guān)鍵在于模型的完善程度如何。目前描述文本信息的模型有很多種,有布爾模型、向量空間模型、概率推理模型、潛在語(yǔ)義搜索模型、 基于模糊集合的信息過(guò)濾模型。其中,向量空間模型(VSM)的最大優(yōu)點(diǎn)在于它在知識表示方法上的巨大優(yōu)勢:文本被形式化為多維空間中的向量,把對文本內容的處理簡(jiǎn)化為向量空間中的向量運算,大大降低了問(wèn)題的復雜度,提高了文本處理的速度和效率。在一個(gè)向量空間模型構造的信息過(guò)濾系統中,用字項來(lái)標識文檔。一個(gè)包含不健康信息的文檔 D用一個(gè) m 維向量來(lái)表示,其中 m 是能夠用來(lái)表示文檔內容的字項的總數。給每一個(gè)字項賦予一個(gè)權值用來(lái)表明它的重要程度。該文檔 D的向量表示為 D={w1w2…wm},其中 wm 表示第 m個(gè)字項的權值。在進(jìn)行信息過(guò)濾的過(guò)程中,首先對請求的頁(yè)面數據進(jìn)行加工將其看成是一個(gè)由 n個(gè)詞組成的向量 P,然后比較向量 P 和向量 D 的相似程度。通常使用的方法是取兩個(gè)向量的余弦值,根據它們夾角的大小來(lái)判斷相似程度。最后根據相似程度來(lái)決定是否要過(guò)濾掉該頁(yè)面。也正因為把文本以向量的形式定義到數域中,VSM 模型大大提高了文本處理的速度和效率,因此在文本過(guò)濾領(lǐng)域 VSM 是被廣泛采用的文本表示模型。向量空間模型也有明顯的缺它是一種忽略了特征項之間順序的詞代文本表示模型,雖然帶來(lái)了計算和處理上的便利,但卻損失了大量的文本結構和語(yǔ)義信息;另外向量空間模型是建立在所有項兩兩正交這一假設的基礎上的,沒(méi)有考慮特征項之間的相關(guān)性,對于有著(zhù)豐富語(yǔ)義的自然語(yǔ)言來(lái)說(shuō),這種假設過(guò)于嚴格,不能很好地反映自然語(yǔ)言的特征??傊?,用簡(jiǎn)單的初等運算來(lái)代替語(yǔ)義,誤差勢必存在。
3.3 特征選擇
特征選擇的基本思想通常是構造一個(gè)評價(jià)函數,對特征集的每個(gè)特進(jìn)行評估。這樣每個(gè)特征都獲得一個(gè)評估分,然后對所有的特征按照其評估分的大小進(jìn)行排序,選取預定數目的最佳特征作為結果的特征子集。選擇的準則是經(jīng)特征選擇后能有效提高文本準確率。選擇沒(méi)有改變原始特征空間的性質(zhì),組成一個(gè)新的低維空間。 特征選擇具有降低向量空間維數、簡(jiǎn)化計算、防止過(guò)分擬合以及去除噪聲等作用,特征提取的好壞將直接影響著(zhù)文本過(guò)濾的準確率。常用的特征選擇方法有:文檔頻率、信息增益、互信息、x2統計量、期望交叉熵、文本證據權和幾率比等。
4.文本過(guò)濾的評估標準
為了衡量信息過(guò)濾系統效果,需要一套性能標準。一個(gè)完善的評價(jià)系統需要考慮的不僅僅是信息內容,還包括社會(huì )因素、用戶(hù)興趣等方面,所以至今還沒(méi)有一套完美的評測方法。通常,信息過(guò)濾系統效果的評估借鑒信息檢索的做法。 得益于信息檢索評估的長(cháng)期經(jīng)驗,具體的方法大致可以分為三種:試驗評估,仿真評估和分析評估。信息檢索標準的評估對信息過(guò)濾效果的評估有一定的參考價(jià)值,但是不能完全套用。目前大部分過(guò)濾效果還是由查全率和準確率來(lái)衡量的,準確率和查全率被廣泛應用于仿真試驗。然而,由于查全率的計算必須以整個(gè)數據集為基礎,而整個(gè)數據集是未知的,所以它不可能應用于那些已經(jīng)將無(wú)關(guān)數據忽略掉的真實(shí)過(guò)濾系統的實(shí)驗。除了采用在信息檢索中常用的查全率和準確率指標外,批過(guò)濾和自適應過(guò)濾子任務(wù)還采用Utility和F值來(lái)評價(jià),而分流子任務(wù)則根據平均非插值準確率評價(jià).
5.結束語(yǔ)
本文提出的傾向性中文文本過(guò)濾方法,通過(guò)分析文本特征項之間的語(yǔ)義關(guān)系,引入特征區域權重因子,計算全文語(yǔ)義的加權相關(guān)度,來(lái)判斷文本的態(tài)度和立場(chǎng),達到內容審查過(guò)濾的目的。實(shí)驗表明,系統具有較高的查準率,對于特定領(lǐng)域的傾向性文本可以高效地進(jìn)行過(guò)濾。需要說(shuō)明的是,語(yǔ)義模式的建立與維護需要相關(guān)的領(lǐng)域知識,對過(guò)濾效果有直接的影響,另外,語(yǔ)義模式的權重和特征區域的權重也需要人工確定。下一步的工作可以采用統計方法對相關(guān)度和特征區域權重進(jìn)行訓練,針對不同的領(lǐng)域確定更恰當的權重,進(jìn)一步提高查準率和查全率。
參考文獻:
[1]、黃曉斌. 網(wǎng)絡(luò )信息過(guò)濾原理與應用[M]. 北京: 北京學(xué)出版社, 2005
[2]、李寶安, 李燕, 孟慶昌. 中文信息處理技術(shù)—原理與應用[M].北京:清華大學(xué)出版社,2005
[3]、吳立德.大規模中文文本處理[M].上海:復旦大學(xué)出版社, 1997
[4]、李瑞芳,孫健,李娜.基于計算機自動(dòng)分詞的研究[J]. 沈陽(yáng)化工學(xué)院學(xué)報 2008
[5]、Filmore C.J.,The Case of the Case.In:Bach E.,Harms R.(eds) Universals in Linguistic Theroy,New York,Holt,Rinehart and Winston,1986
聯(lián)系客服