欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
潛伏語(yǔ)義分析的理論及其應用資料
您的位置:資料中心->文史論文->文字學(xué)論文-> 潛伏語(yǔ)義分析的理論及其應用資料
文字學(xué)論文
資料閱讀排行
·方位語(yǔ)素地理名詞造詞的內在手段和外在因素
·新世紀的澳門(mén)語(yǔ)言策略
·中國符號學(xué)研究20年
·中古音分期綜述
·新詞新語(yǔ)規范基本原則
·藏緬語(yǔ)的形修名語(yǔ)序
·苗瑤語(yǔ)核心詞的詞源關(guān)系
·】“的”的基本功能和派生功能
·吳徽語(yǔ)入聲演變的方式
·潛伏語(yǔ)義分析的理論及其應用
潛伏語(yǔ)義分析的理論及其應用
作者:未知 來(lái)源:http://www.7784.cn 加入時(shí)間:2006-3-8
1.柏拉圖問(wèn)題談起
從古希臘哲人柏拉圖(Plato)開(kāi)始,人們就為一個(gè)關(guān)于認知的神秘問(wèn)題所困惑:人們?yōu)槭裁茨軌蛟谒麄兯玫降南∩傩畔⒒A上獲得那么多的知識?這個(gè)問(wèn)題有時(shí)被稱(chēng)為柏拉圖問(wèn)題(注:在柏拉圖對話(huà)錄里,有幾處接觸到知識來(lái)源問(wèn)題。他在Meno里指出,靈魂是不滅的,已經(jīng)學(xué)習了所有的事物,所以真正的學(xué)習無(wú)非是回憶內在的、忘記了的事物;在Phaedo里,他又把內在論和形式理論聯(lián)系起來(lái),例如“平等”的形式不可能來(lái)自實(shí)際的觀(guān)察,而是與生俱來(lái)的;在Cratylus里則認為,詞語(yǔ)是天生(physis),不是約定俗成(nomos)的。),有時(shí)被稱(chēng)為“刺激的貧乏”、“缺乏負面證據”或語(yǔ)言習得的邏輯問(wèn)題。這個(gè)問(wèn)題引起了哲學(xué)家、心理學(xué)家、語(yǔ)言學(xué)家、計算機科學(xué)家的廣泛興趣,各自提出不同的解釋。Chomsky派(注:Chomsky(1965,1986,2000)在不同場(chǎng)合都以?xún)和~匯習得為例反復說(shuō)明這個(gè)問(wèn)題,因為“負面的證據”已成為他的語(yǔ)言共項論的主要支柱:Pinker(1994)從進(jìn)化、歷史、解剖、生理和兒童發(fā)育的不同角度觀(guān)察了語(yǔ)言的起源,認為語(yǔ)言習得一定是建筑在一個(gè)強有力的和特殊的內在機制,并稱(chēng)之為“語(yǔ)言天性”。)秉承了柏拉圖和笛卡兒的觀(guān)點(diǎn)提出了“天賦論”或“內在論”,對這個(gè)問(wèn)題作出了一種回答。但是心理語(yǔ)言學(xué)家MacWhinney(注:Brian  Mac  Whinney最近在廣東外語(yǔ)外貿大學(xué)召開(kāi)的心理語(yǔ)言學(xué)與外語(yǔ)教學(xué)討論會(huì )上談到,在他所提出的競爭模型里沒(méi)有負面的證據,只有正面的證據。)、自然語(yǔ)言處理家Sampson(注:Geoffrer  Sampson(1997)寫(xiě)了一本關(guān)于語(yǔ)言天性爭論的專(zhuān)著(zhù)Educating  Eve,認為負面證據之說(shuō)是自我矛盾的。在Empirical  Linguistics(2001)里,更進(jìn)一步指出,負面證據是內省法臆想出來(lái)的。我們沒(méi)有負面證據也能歸納出萬(wàn)有引力定律,為什么要編一本故意把of  of  the  of(負面證據)排除在外的語(yǔ)法?)卻對此提出質(zhì)疑。哲學(xué)家Quine對這個(gè)問(wèn)題做出另一種回答,他舉了一個(gè)所謂"Gavagai"的有趣的例子:一個(gè)到外國訪(fǎng)問(wèn)的人看到一只兔子,偶然聽(tīng)到他的資料提供人說(shuō)gavagai。在這種證據貧乏的情況下,gavagai可以指“兔子”(一個(gè)完整的事物),“有皮毛的”(事物的未分離部分),或“天氣不錯,是嗎?”(事物發(fā)生的時(shí)間段),他認為純粹以經(jīng)驗為基礎的客觀(guān)真理和意義根本不存在,這簡(jiǎn)直是“歸納法的恥辱”(scandal  of  induction)。對田野作業(yè)的語(yǔ)言學(xué)家來(lái)說(shuō),分析和綜合的區別并不存在。進(jìn)化心理學(xué)家Shepard(1987)卻認為柏拉圖問(wèn)題是心理學(xué)的核心問(wèn)題,關(guān)于概括和相似性的普遍理論對心理學(xué)就等于牛頓定律對物理學(xué)那樣重要。
盡管大多數人都承認語(yǔ)言能力的遺傳性,但是這種生物機制的存在并沒(méi)有解決Shepard所提出的概括(在母語(yǔ)習得里,更成為“過(guò)度概括”)和相似性的問(wèn)題。這個(gè)歸納性難題經(jīng)常被看成是范疇化的問(wèn)題,那就是說(shuō)我們必須找出的這樣一個(gè)機制,足以把一系列刺激、語(yǔ)詞或概念(例如獵豹和老虎)看成是一類(lèi)的(相似的)事物。但是相似性以什么為基礎卻眾說(shuō)紛紜,有特征論、原型論,范式論、心理本質(zhì)論、心理語(yǔ)境論,等等,不一而足(桂詩(shī)春2000)。這些理論模型都旨在提出一些制約,以縮小歸納(也就是說(shuō)學(xué)習)所要解決的問(wèn)題空間。就兒童詞匯習得而言,一些心理語(yǔ)言學(xué)家假設存在一些對詞語(yǔ)賦予意義的制約,兒童在早期習得詞匯時(shí)都假定:多數詞語(yǔ)在感知上都是對應物體的名稱(chēng);兩個(gè)詞通常都有兩個(gè)不同的意義;享有共同聲音的詞語(yǔ)通常都是意義上相關(guān)的;一個(gè)不熟悉的言語(yǔ)聲音可能指一些兒童還未能掌握其對應詞的東西。但是這也不是沒(méi)有問(wèn)題,Landauer與Dumais(1997)指出,一個(gè)問(wèn)題是我們不知道某一個(gè)制約是否真正存在;少年兒童雖然假定相同的物體只有一個(gè)名稱(chēng),但是他們所接觸的語(yǔ)言是否也是這樣呢?又如某一種制約的產(chǎn)生是逐步進(jìn)化的,還是通過(guò)認知而起作用的一種普遍性制約?還有一個(gè)問(wèn)題是,某些制約的存在和產(chǎn)生出于邏輯的需要,但這又是不夠的,可以從3方面看:1)某一套制約是否邏輯上和語(yǔ)用上充分,也就是說(shuō)使用了它們以后是否就能解決問(wèn)題?例如兒童認為沒(méi)有同義詞,這在多大程度上能幫助他們學(xué)習詞匯?2)和方法論有關(guān),怎樣才能獲得前一個(gè)問(wèn)題的答案?怎樣知道某一些特定制約的組合應用到自然環(huán)境的輸入時(shí)才能解決問(wèn)題?3)怎樣決定一個(gè)提出來(lái)的模型是否具有心理現實(shí)性?Landauer認為要解決這些問(wèn)題必須使用模擬的模型。而他和其他幾個(gè)研究人員Foltz、Dumais、Deerwester、Furnas等人(Deerwester  et.al.1990)所提出的,而又得到著(zhù)名語(yǔ)篇研究者Kintsch支持的模型就是潛伏語(yǔ)義分析(Latent  Semantic  Analysis,LSA)。這是一個(gè)多維數的線(xiàn)性組合模型,“這個(gè)模型只是一個(gè)普遍的學(xué)習機制,本身并不體現人類(lèi)知識,但是它通過(guò)分析一個(gè)很大的自然語(yǔ)言文本語(yǔ)料庫來(lái)生成一個(gè)足以體現詞語(yǔ)和文本片段的相似性的表征。”
2.LSA的理?yè)?div style="height:15px;">
從潛伏性語(yǔ)義分析的角度看來(lái),歸納就是減少維數(reduction  of  dimensionality)。Landauer舉了一個(gè)形象的例子,一個(gè)人站在高原上打電話(huà)告訴他的朋友三間房子的位置,A和B、A和C的距離都是5個(gè)單位,而B(niǎo)和C的距離則是8個(gè)單位。在他的朋友腦海里就形成一個(gè)兩個(gè)維數的三角形。如果他繼續補充說(shuō),這三間房子是在一條直線(xiàn)上,他的朋友就會(huì )說(shuō),他一定是看錯了這三個(gè)房子的距離。A和B、C的距離應該是4.5個(gè)單位,而B(niǎo)和C的距離應該是9個(gè)單位。因為在一個(gè)兩維數的三角形里,其底邊應該是其他兩個(gè)邊的和。這說(shuō)明,減少維數可改善估算。在研究工作中,研究人員往往通過(guò)減少維數來(lái)降低計算的復雜性,即把數據作平滑化處理:簡(jiǎn)化數據并填補所缺的節點(diǎn)。在東京召開(kāi)的聯(lián)合國大學(xué)主持的混沌對科學(xué)和社會(huì )的沖擊學(xué)術(shù)會(huì )議上,兩個(gè)著(zhù)名的混沌學(xué)專(zhuān)家Feigenbaun和Aihara就一致認為,人腦由100億個(gè)神經(jīng)元組成,而我們要對它的相互作用進(jìn)行觀(guān)察只能選取一個(gè)極低的維數。(注:這次大會(huì )的文集我國已由楊立、劉巨彬等譯,劉式達、杜先之等校,湖南科學(xué)技術(shù)出版社出版,題為《混沌:對科學(xué)和社會(huì )的沖擊》,兩人的對話(huà)見(jiàn)該書(shū)394-395頁(yè)。)在統計學(xué)中,這種減少維數的方法,例如因子分析、多維數量表也經(jīng)常被采用,Osgood(1971)在70年代所做的語(yǔ)義微分分析就用過(guò)因子分析。同樣地,我們也可以把兩個(gè)詞的語(yǔ)義相似性表示為距離:距離越近,相似性就越強。假定兩個(gè)詞在一個(gè)語(yǔ)篇單位(短語(yǔ)、句子或段落)中出現的頻率和它們的語(yǔ)義距離成反比例(頻率越多,距離越近),那它們就和語(yǔ)義相似性直接相關(guān)。我們可以通過(guò)觀(guān)察兩個(gè)詞在同一單位中出現的相對頻率來(lái)估算出其語(yǔ)義相似性。因為人們進(jìn)行交際時(shí),都會(huì )使用一些基本成分(如詞),使兩個(gè)詞語(yǔ)中存在某種相對的相似性。發(fā)送者會(huì )選擇同一語(yǔ)義空間彼此相近的詞,它們就會(huì )有不同的語(yǔ)義距離;而接收者則會(huì )按照它們在同一上下文中的相對頻率來(lái)估算這些距離。但是自然語(yǔ)言中的詞語(yǔ)數量極為龐大,而接收到的詞語(yǔ)卻數量極少,例如兩個(gè)詞的頻率都是百萬(wàn)分之一,它們雖然有相關(guān)的意義,也不大可能會(huì )一起發(fā)生??墒侨绻覀兊慕邮諜C制按照統計知識把接受到的詞語(yǔ)表示為相似的語(yǔ)義空間,即同一個(gè)維數的各個(gè)節點(diǎn),情況就會(huì )大大改善。
附圖
基于上述的假設,潛伏性語(yǔ)義分析可以用來(lái)比較不同語(yǔ)篇的語(yǔ)義相似性。研究語(yǔ)篇理解的首要目標是:了解有哪些足以影響讀者從文本材料中抽取和保存信息的能力的因素,例如讓受試寫(xiě)一篇文本材料的摘要,然后再看他們從文本中獲取了什么信息。這意味著(zhù)把讀者的文本表征(認知模型)和原來(lái)的文本表征加以比較,即把摘要中每一個(gè)句子的信息和文本中的句子信息加以比較。但是要對信息進(jìn)行比較并非易事,它要求掃描原文,找出信息的所在。而且受試所寫(xiě)的摘要往往并不全都采用原文中的詞語(yǔ)。所以光比較詞語(yǔ)也不成。研究人員要比較的是摘要和原來(lái)文本的語(yǔ)義內容。Kintsch(1988,1998)所提出的構建整合模型(construction-integration  model)就是一個(gè)觀(guān)察讀者對文本表征的認知模型,它把讀者摘要的語(yǔ)義信息表示為一些語(yǔ)義成分組合,稱(chēng)之為命題(prepositions)。文本中的每一個(gè)子句是一個(gè)命題(如the  red  rose和the  rose  is  red,都屬于一個(gè)命題)。這些命題根據各種范疇連接起來(lái),例如看它們是否共享中項(arguments)和指稱(chēng)(referents)。一個(gè)文本的所有命題組合起來(lái)就成為文本結構。不少實(shí)驗都證明命題是人們的心理處理單位(如Graesser1981)。對文本和受試對它回述進(jìn)行命題分析可以對一系列語(yǔ)義基本元素加以比較,其好處是這種比較并非表層結構的比較。但問(wèn)題是,目前還沒(méi)有生成命題的自動(dòng)化程序,因為計算機必須對文本進(jìn)行正確的語(yǔ)法分析,并且了解詞語(yǔ)的正確意義。于是可以利用計算機來(lái)對語(yǔ)義相似性進(jìn)行比較的潛伏性語(yǔ)義分析就應運而生了。
LSA原來(lái)是建筑在以語(yǔ)義內容的基礎上以改善信息提取的一種設計,稱(chēng)為潛伏性語(yǔ)義索引(Latent  Semantic  Indexing,LSI)。在現實(shí)生活里,往往同一個(gè)語(yǔ)義概念表示為不同的詞語(yǔ),如果以原詞作為檢索單位,就費時(shí)失事。例如“電子計算機”往往又可以簡(jiǎn)稱(chēng)為“計算機”或“電腦”,甚至“服務(wù)器”和“機器”。如果在檢索中只鍵入任何一種說(shuō)法就能查出“電子計算機”,不是方便得多嗎?這種方法還可以避免同義性的問(wèn)題。LSA的基本假設是不同文件(文件可大可小,可以是詞語(yǔ)所出現的整個(gè)語(yǔ)境,也可以是某些文本、段落和句子)的詞語(yǔ)使用型式存在著(zhù)某種“潛伏的”結構,而使用一些統計的方法可以估量出這種潛伏性結構。這些方法通過(guò)分析詞語(yǔ)和文件之間的聯(lián)系,產(chǎn)生一個(gè)在相同語(yǔ)境中使用的詞語(yǔ)將會(huì )在語(yǔ)義上更為密切聯(lián)系的表征。例如:
(1)The  U.S.S.Nashville  arrived  in  Colon  harbor  with  42  marines
(2)With  the  warship  in  Colon  harbor,the  Colombian  troops  withdrew.
"warship"所出現的語(yǔ)境(LSA稱(chēng)之為“向量”,vector)和"Nashville"所出現的語(yǔ)境相似,兩者的上下文都有"Colon"和"harbor"。LSA所使用的技巧可以自動(dòng)找出這些更深層的聯(lián)系的結構。
又如我們讀到下面的句子:
(3)John  is  Bob‘s  brother  and  Mary  is  Anne‘s  mother.
(4)Mary  is  Bob‘s  mother.
這兩句話(huà)里并沒(méi)有出現表示親屬關(guān)系的sister,daughter,father,son等詞語(yǔ),但第(4)句使我們意識到Bob和Ann是兄弟姐妹,Anne是John的女兒,John是Ann的父親,Bob是Mary的兒子。當然LSA所推斷出的詞際關(guān)系往往并非完全符合邏輯,它所揭示的僅是相似性關(guān)系。這些關(guān)系相互牽連和制約,可以產(chǎn)生出一些模糊的間接推斷,關(guān)系上可強可弱,邏輯上可對可錯。
3.怎樣做LSA?
LSA以大規模的語(yǔ)料庫為基礎,使用了一種完全自動(dòng)化的數學(xué)/統計技巧來(lái)抽取和推斷詞際關(guān)系,這種技巧就是線(xiàn)性代數中的奇異值分解(Singular  Value  Decomposition,SVD)。從概念上說(shuō),LSA模型可以理解為一個(gè)具有三層的神經(jīng)網(wǎng)絡(luò )系統。在SVD里,一個(gè)m×n的長(cháng)方形矩陣{A}(m是行,n是列,m>n),被分解為三個(gè)矩陣:一個(gè)是m×n的成分矩陣{U},把原來(lái)的列的實(shí)體表示為派生的正交因子值的向量;另一個(gè)矩陣{w}用同樣的方法表示原來(lái)列N×N的實(shí)體;第三個(gè)矩陣{V}的轉置(transpose)是一個(gè)包括有標度值的直角矩陣(N×N)。
{A}={U}{w}{V}[T]
 
這三個(gè)矩陣相乘就可以恢復原來(lái)矩陣。如果我們在恢復時(shí)減少維數,就可以取得壓縮語(yǔ)義空間的效果。
附圖
下面是一個(gè)常被引用的例子:現有9條技術(shù)備忘錄的題目,其中5條是關(guān)于人和計算機交互作用的,4條是關(guān)于數學(xué)圖論的。這些題目在概念上不大相關(guān),它們構成一個(gè)9列12行的矩陣,每一行是在這些題目中出現起碼兩次的實(shí)義詞(均標為斜體),整理為表1。
c1:Human  machine  interface  for  ABC  computer  applications
c2:A  survey  of  user  opinion  of  computer  system  response  time
c3:The  EPS  user  interface  management  system
c4:System  and  human  system  engineering  testing  of  EPS
c5:Relation  of  user  perceived  response  time  to  error  measurement
m1:The  generation  of  random,  binary,ordered  trees
m2:The  intersection  graph  of  paths  in  trees
m3:Graph  minors  IV:Widths  of  trees  and  well-quasi-ordering
m4:  Graph  minors:A  survey
表1
附圖
使用SVD技術(shù),就得到下列的3個(gè)矩陣,如表2:
表2
附圖
然后我們取這三個(gè)矩陣的頭兩列(即取其兩個(gè)維數)來(lái)加以還原,便得到下面的矩陣(表3):
表3
附圖
我們可以首先看m4列的survey和trees。trees這個(gè)詞在m4題目里并沒(méi)有出現,但是m4里有Graph  minors,而m3里也有Graph  minors,且出現了trees,所以在原來(lái)矩陣里為0的值被變?yōu)?.66,它表示在有g(shù)raph和minors的題目的無(wú)限樣本中,trees可能出現0.66倍。相反地,survey在原來(lái)矩陣中的m4中為1,但是卻變?yōu)?.42,反映了它在這樣的上下文里并非人們所期望的,不足以表示這個(gè)題目的特征。我們還可以比較human和user,human和minors在原來(lái)矩陣和后來(lái)矩陣的相關(guān)系數:前者原為-.38,后者原為-.29,現分別提高到.94和-.83。而在原來(lái)的矩陣里,human并沒(méi)有和user或minors一起出現。減少了維數后顯示human和user是更為相似,而human和minors則相反,更為不相似。
LSA可以用來(lái)揭示一些隱含的內部關(guān)系。讓我們再看另一個(gè)例子。中國學(xué)生英語(yǔ)語(yǔ)料庫(桂詩(shī)春、楊惠中,2002)是一個(gè)有100萬(wàn)詞的作文語(yǔ)料庫,對5種不同水平——中學(xué)生(st2)、大學(xué)英語(yǔ)4級(st3)、大學(xué)英語(yǔ)6級(st4)、專(zhuān)業(yè)英語(yǔ)低年級(st5)、專(zhuān)業(yè)英語(yǔ)高年級(st6)——的寫(xiě)作失誤進(jìn)行了標注(共有61種)。最常見(jiàn)的失誤有21種,占全部失誤的87%。根據Landauer等人的意見(jiàn),在進(jìn)行SVD之前,必須對這些數據作預處理:1)把每個(gè)頻數+1,然后轉換成對數;2)把每一列的數值計算為-plog  p,然后除以每列的平均信息量(即熵,entropy)。其公式(Maletic  et  al.1999)為:
附圖
這樣做的目的是通過(guò)估算每一個(gè)詞項在每一個(gè)語(yǔ)篇的重要性(即該詞項與它所出現的語(yǔ)篇所提供的信息量的程度成反比例),對它的出現率加權。在信息提取中經(jīng)常使用這種轉換,可獲顯著(zhù)效果。限于篇幅,我們略去了計算的中間數據和經(jīng)SVD處理后(包括將維數減為2個(gè))結果(注:我們使用的工具是Excel的“數據分析”和國際牲畜研究院Greg  Hood所編制的,可在Excel上運轉的Poptools2.4版。),只報告幾個(gè)有意義的變化,這些變化說(shuō)明,由于減少了維數,幾種學(xué)習者的言語(yǔ)失誤的關(guān)系都有所微調,趨于更為合理。例如第一種失誤是拼寫(xiě)失誤(Fml)。轉換值并沒(méi)有改變原來(lái)的次序,大學(xué)英語(yǔ)4級和6級學(xué)習者的拼寫(xiě)失誤比中學(xué)學(xué)習者略多,因為它們的語(yǔ)源來(lái)自CET考試的命題寫(xiě)作,而中學(xué)生則是自由作文的居多。命題寫(xiě)作有特定的用詞要求,往往成為拼寫(xiě)失誤的來(lái)源(如要求學(xué)習者用pollution)?,F在的分析并沒(méi)有把特定用詞要求考慮在里面,而僅就失誤的頻數和其他失誤的關(guān)系而言,經(jīng)過(guò)SVD處理后,這種失誤的發(fā)生率呈現為逐步略有降低的趨勢,較符合中國英語(yǔ)學(xué)習者的實(shí)際。和寫(xiě)作用詞有很大聯(lián)系的是用錯了詞(wd3),經(jīng)過(guò)SVD處理后的變化如下:
Fm1   St2   St3   St4   St5   St6
原始頻數 1929   2877  2113   1827  1687
轉換值  3.30   3.47  3.34   3.27  3.24
處理后值 3.52   3.46  3.36   3.25  3.00
Wd3   St2   St3   St4   St5   St6
原始頻數 1102   1635  1815   757360
轉換值  3.27   3.45  3.50   3.09  2.75
處理后值 3.30   3.49  3.44   2.99  2.84
經(jīng)處理后,St3仍然是最高的,但St4的絕對頻數雖然是最高的,處理后則比St3略低。St6的絕對頻數比St5的少一半,但處理后的值為2.84并沒(méi)有比2.99少一半,僅低0.15倍,這說(shuō)明用錯詞在St6中仍然是一個(gè)常犯的失誤。句法結構(Sn8)的失誤也是中國學(xué)習者常見(jiàn)的失誤,下面是另一個(gè)SVD處理后的變化:
Sn8   St2   St3   St4   St5   St6
原始頻數 1104   446   862   493   232
轉換值  3.27   2.85  3.16   2.90  2.55
處理后值 3.14   3.06  2.97   2.90  2.68
從絕對頻數來(lái)看,St3似乎比St2和St4、St5都少,處理后則顯得較為合理,趨于逐步降低。
一般來(lái)說(shuō),在SVD處理后還可以比較處理前后的余弦cosine(θ)(注:余弦Cosine(θ)為兩個(gè)向量的夾角,比相關(guān)系數更能表示相似性的程度。其公式為:),有時(shí)亦用相關(guān)系數來(lái)表示。經(jīng)過(guò)計算,相關(guān)系數從處理前的0.604增至0.728。拼寫(xiě)失誤是中國學(xué)習者最容易犯的失誤,和各種失誤都有密切的關(guān)系。經(jīng)處理后,它的平均相關(guān)系數從0.614提高到0.817。
4.LSA的應用
LSA以矩陣代數的SVD為依托,而SVD在信息處理,如圖象壓縮、噪音過(guò)濾、開(kāi)發(fā)軟件的源代碼等方面都得到較廣泛的使用。LSA在語(yǔ)篇處理和語(yǔ)義的分析和提取方面均有廣闊應用前景。
第一、我們要看LSA模型是怎樣回答我們柏拉圖問(wèn)題。需要證明的是通過(guò)大量接觸自然文本,人們能否獲得語(yǔ)義相似性的知識?Landauer等人先對一個(gè)有代表性的英語(yǔ)語(yǔ)料庫(包括美聯(lián)社的新聞、給學(xué)生看的Grolier‘s美國大百科詞典和有代表性的兒童讀物)做SVD分析,然后用這個(gè)模型來(lái)做一次TOEFL同義詞測試(共80個(gè)項目)。為了模擬人的行為,他們把題目中的測試詞和每個(gè)選項的余弦都計算出來(lái),然后讓LSA模型來(lái)選擇意義最接近的詞。LSA的答對率為65%,相當于在美國的來(lái)自非英語(yǔ)國家的考生的平均答對率。但是要進(jìn)一步回答兒童怎樣在“負面的證據”的情況下習得詞匯,還要考慮效率問(wèn)題。Landauer等人認為,歸納方法取決于重建一個(gè)處于高維數空間的多重相似性系統,這樣出現在局部上下文的事件也就可以反映高層次語(yǔ)義空間的相似性。因為四分之三的詞語(yǔ)知識都是來(lái)自間接歸納,即接觸一些那些詞語(yǔ)并不在其中出現的文本。他們進(jìn)一步完善其語(yǔ)料庫的選詞辦法,并對照Carroll等人的Word  Frequency  Book(1971)所提供的數據,推斷出每一段文本后的詞匯增長(cháng)率為0.20。如果一般學(xué)生每天平均讀50段文字,就可每天增長(cháng)10個(gè)新詞。
第二、在信息提取方面,出現了LSI技術(shù),以取代一般的主題詞檢索。早在80年代,Dumais等人(1982)對一個(gè)包括有1033個(gè)醫學(xué)文獻的摘要和題目的數據庫,自動(dòng)檢索到出現兩次以上的詞語(yǔ)5823個(gè),經(jīng)過(guò)SVD處理取得100個(gè)因子,然后對數據庫提出30個(gè)問(wèn)題,LSI比原來(lái)的主題詞檢索改善了13%。后來(lái)技術(shù)有所提高,據Berry等人(1994)對幾個(gè)系統的檢驗,LSI的改善程度已達30%。Deerwester等人(1990)認為,LSI的優(yōu)點(diǎn)是,它可以解決同義性、多義性和詞語(yǔ)依賴(lài)性(term  dependency)三方面的問(wèn)題。LSI的研究還在發(fā)展,一些令人興奮的進(jìn)展是信息過(guò)濾、增加檢索問(wèn)題的長(cháng)度(TREC系統可以提出長(cháng)達50個(gè)詞的問(wèn)題來(lái)進(jìn)行檢索)和進(jìn)行跨語(yǔ)種檢索(Rosario  2000)。
第三、文本相似性研究。在語(yǔ)篇理解方面,Foltz,Kintsch和Landauer(1993)等人用LSA來(lái)自動(dòng)化處理語(yǔ)篇連貫(以心臟科學(xué)文獻為試驗樣本),把一個(gè)句子或片段和接著(zhù)的句子或片段的連貫性來(lái)分析比較,其相關(guān)系數高達.90。在他們所建立的網(wǎng)站http://LSA.colorado.edu上面提供了一些已經(jīng)根據心理學(xué)、百科全書(shū)、文學(xué)成語(yǔ)、心臟科學(xué)的語(yǔ)料庫給讀者進(jìn)行網(wǎng)上比較文本相似性研究。例如我們隨機從一本認知心理學(xué)教科書(shū)里找了兩段在詞語(yǔ)上沒(méi)有多大聯(lián)系的話(huà):
"These  findings  indicate  a  considerable  degree  of  functional  equivalence  of
perception
and  imagery.However,it  is  possible  that  subjects  in  the  imagery  condition  merely
made
plausible  guesses  about  the  fields  of  resolution,and  did  not  actually  rely  on
imagery
at  a11."
"While  it  is  very  straightforward  to  see  that  previous  learning  can  facilitate
problem
solving  by  supplying  well-practiced  skills  and  strategies,it  is  perhaps  less  obvious  that  knowledge  acquired
in  the  past  can  sometimes  disrupt,and  interfere  with,subsequent  attempts  to  solve
problems."
這兩段話(huà)在用詞方面沒(méi)有太多相同之處,但是和心理學(xué)語(yǔ)料庫的維數比較以后,它們的相關(guān)是.82。
第四、使用LSA來(lái)進(jìn)行寫(xiě)作質(zhì)量評估。Landauer,Laham和Foltz(1998)試驗使用5種不同的方法來(lái)應用LSA對作文題目的答案進(jìn)行評分,如讓評分員對一些作文樣本進(jìn)行評分,然后計算出評了分的作文和未評分的作文的余弦,再根據相似性權重把最相似的作文分數的平均分賦予未評分的作文,等等。這5種方法所評出的分數的相關(guān)程度接近于它們和專(zhuān)家評分的相關(guān)程度。在另一項研究中,他們還用這方法來(lái)評估8個(gè)考試,題目從心臟解剖和生理學(xué)到心理學(xué)概念,美國歷史,當前社會(huì )問(wèn)題和市場(chǎng)問(wèn)題。通過(guò)元分析發(fā)現LSA和專(zhuān)業(yè)評分員(來(lái)自教育考試服務(wù)公司或其他專(zhuān)業(yè)機構或課程導師)的相關(guān)高于專(zhuān)業(yè)評分員之間的相關(guān)。LSA評分的可靠性說(shuō)明一個(gè)篇章的全面的語(yǔ)義表征主要決定于詞的選擇,而對句法使用則要求不高。
第五、使用LSA來(lái)模擬心理語(yǔ)言學(xué)試驗。語(yǔ)義啟動(dòng)是一種常用的試驗,Landauer用LSA方法來(lái)模擬Till等人(1988)的判斷多義詞的試驗,結果完全一致。這些結果顯示在語(yǔ)篇理解中,忽略了詞序、句子結構、非線(xiàn)性的詞與詞的相互作用的詞義關(guān)系也能夠預測人類(lèi)的行為。Kintsch等人(1999)還通過(guò)LSA所獲得的信息提出長(cháng)時(shí)工作記憶(Long-term  Working  Memory,LTWM)的理論。他認為人類(lèi)的記憶系統包括了感知特征、語(yǔ)言特征、命題結構、宏結構、語(yǔ)境模型、控制結構、目標、詞匯知識、框架、一般知識、情節記憶等等成分。它們對理解語(yǔ)篇至為重要,遠遠超過(guò)短時(shí)記憶。LTWM認為在某些條件下工作記憶可以大大延伸,LSA在某種程度模擬了這種機制,實(shí)際上也模擬了人類(lèi)的知識系統。大部分人類(lèi)知識都體現為語(yǔ)言,而LSA通過(guò)減少維數來(lái)篩選它所處理的信息,從而保留了它所處理的文本的主要語(yǔ)義關(guān)系。例如在LSA處理的文件中,mountain和mountains的相關(guān)系數可能很低,但是通過(guò)減少維數后,它們的相關(guān)卻是.81。它的推斷是這兩個(gè)詞在語(yǔ)義上有密切聯(lián)系。同樣地,圍繞mountain還可以找到peaks,rugged,ridges和climber,而圍繞mountains又可以找到peaks,rugged,plateaus和foothills。我們所需要的正是這些信息,以認識人們在理解過(guò)程中是怎樣通過(guò)LTWM來(lái)激活知識的。又如"The  band  played  a  waltz."(樂(lè )隊奏了一曲華爾茲)和"Mary  loved  to  dance."  (瑪麗喜歡跳舞)這兩句話(huà)雖然無(wú)甚直接聯(lián)系,但它們都分別激活了一些第三方的互有聯(lián)系的語(yǔ)詞,故其余弦為.45。
第六、在LSA的基礎上,Kintsch等(2000)及Steinhart(2001)又開(kāi)發(fā)了訓練學(xué)生寫(xiě)作的軟件。這個(gè)軟件是一個(gè)在線(xiàn)的輔導學(xué)生寫(xiě)摘要的軟件,叫做Summary  Street。Steinhart認為,寫(xiě)摘要是一種比較難的技能,低年級學(xué)生(如初中生)往往依靠“抄和減”的策略來(lái)寫(xiě)摘要,而高年級的學(xué)生(如高中生)則使用較復雜的壓縮規則,如重建和歸納。寫(xiě)摘要訓練不僅僅是一種寫(xiě)作技巧的訓練,它可以提高學(xué)生的閱讀理解、獲取知識和思維能力。這個(gè)軟件首先讓學(xué)生看一些文章如能源科學(xué)、古代文明、血液循環(huán)系統等,然后提出寫(xiě)摘要的一些要求,如找出主題句、找出支持主題句的兩三個(gè)重要思想和細節,把它們組成一句話(huà),用一個(gè)概括性的詞語(yǔ)來(lái)代替具體的項目和事件,避免煩瑣的信息和細節,避免重復信息等等。學(xué)生根據這些要求把閱讀的文章寫(xiě)成摘要,在網(wǎng)上輸入到Summary  Street系統里,系統就能分析摘要,告訴學(xué)生摘要在多大程度上反映原文,長(cháng)度是否合乎要求,等等。學(xué)生可以通過(guò)系統提供的反饋信息(包括指出拼寫(xiě)錯誤和用詞不當,信息覆蓋面是否足夠等),不斷改寫(xiě)摘要。他在Boulder縣中學(xué)試驗的結果說(shuō)明,運用Summary  Street訓練學(xué)生所寫(xiě)出的摘要比使用傳統的文字處理器寫(xiě)出的摘要要好,特別是處理難度比較大的文章更是如此。
5.啟發(fā)和問(wèn)題
LSA直逼哲學(xué)上的認識論問(wèn)題,卻又開(kāi)拓了廣闊的應用前景,惹人深思。一是人們認識世界從意義開(kāi)始,語(yǔ)篇里隱含著(zhù)許多錯綜復雜的語(yǔ)義關(guān)系,是了解語(yǔ)義的鑰匙。二是現代科學(xué)技術(shù)為建立、儲存和提取包括了大量語(yǔ)篇的語(yǔ)料庫創(chuàng )造了條件,也為人們認識這些錯綜復雜的語(yǔ)義關(guān)系創(chuàng )造了條件,使我們有可能解決許多與文本有關(guān)的問(wèn)題。三是認識問(wèn)題的一個(gè)有效途徑是減少維數,提高概括力。和維數匹配的歸納可以大大改善知識的提取和表征。四是LSA要解決的語(yǔ)篇中的語(yǔ)義關(guān)系,它既依賴(lài)于計算機技術(shù),又利用了奇異值分解的線(xiàn)性代數模型,充分體現了文理互相滲透的特點(diǎn)。
但是LSA也留下了一些有待我們繼續探索的問(wèn)題。最主要的是它只考慮語(yǔ)詞,而不考慮句法信息,甚至不考慮詞序的信息。而且它完全依賴(lài)于數學(xué)模型,所得到的結果有時(shí)不好解釋。
【參考文獻】
1 Berry,M.,S.Dumais,&  G.O‘Brien[M].1994.Using  linear  algebra  for  Intelligent  Information  Retrieval  [M].Boston:
Houghton
Mifflin  Company.
2 Carroll,J.,et  al.1971.Word  Frequency  Book.Houghton  Mifflin  Company  &  American
Heritage
Publishing  Co.,Inc.
3 Chomsky,N.1965.Aspects  of  the  Theory  of  Syntax  [M].Cambridge,MA:
MIT  Press.
4 Chomsky,N.1986.Knowledge  of  language:Its  nature,origin,and  use  [M].
Westport:
Greenwood
Publishing  Group.
5 Chomsky,N.2000.New  horizons  in  the  study  of  language  and  mind[M].Cambridge:Cambridge  University  Press.
6 Deerwester,S,S.Dumais,G.Fumas,T.Landuauer,&  R.Harshman.1990.Indexing  by  latent
semantic  analysis  [J]
.Journal  of  the  American  Society  for  Information  Science  41:391-407.
7 Dumais,S.et  al.1982.Using  semantic  analysis  to  improve  access  to  textual
information  [J].Machine  Studies  17:87-107.
8 Foltz,P.W.,W.Kintsch  &  T.K.Landauer.1993  (Jan).  An  analysis  of  textual  coherence
using  Latent  Semantic  Indexing  [A].Paper  presented  at  the  meeting  of  the  Society
for  Text  and  Discourse,Jackson,WY.
9 Geoffrey  sampson.2001.Empirical  Linguistics  [M].London:Continuum.
10 Graesser,A.1981.Prose  Comprehension  beyond  the  word  [M].New  York:Springer.
11 Kintsch,W.,D.Steinhart,G.Stahl  &  LSA  Research  Group.2000.  Developing  summarization
skills  through  the  use  of  LSA-Based  Feedback  [J].Interactive  learning  environments  8  (2):87-109.
12 Kintsch,W.1988.The  role  of  knowledge  in  discourse  comprehension:A  construction-integration  model  [J].Psychological  Review  95:163-182.
13 Kintsch,W.1998.Comprehension  [M].Cambridge  University  Press:86-91.
14 Kintsch,W.,L.Vimla,K.Patel  &  A.Ericsson.1999.The  role  of  long-term  working  memory  in  text  comprehension  [J].Psychologia  42:186-198.
15 Landauer,T.&  S.Dumais.1997.A  solution  to  Plato‘s  problem:The  Latent  Semantic
Analysis  theory  of  the  acquisition,induction,and  representation  of  knowledge
[J].Psychological  Review  104:211-240.
16 Landauer,T.K.,D.Laham  &  P.W.Foltz.1998.Computer-based  grading  of  the  conceptual  content  of  essays.Unpublished  manuscript.
17 Landauer,T.,P.W.Foltz  &  D.Lanham.1998  An  introduction  to  latent  semantic
analysis  [J].  Discourse  Processes  25:259-284.
18 Maletic,J.et  al.1999.14[th]IEEE  ASE‘99  [A].Cocoa  Beach  FL.12-15[th][C].pp.251-254.
19 Osgood,C  1971.Exploration  in  semantic  space:A  personal  diary  [J].Journal  of  Social
Issues  27:5-64.
20 Pinker.1994.The  Language  Instinct.[M].New  York:William
Morrow  Company,Inc.
21 Rosario,B.2000.Latent  Semantic  Indexing:An  overview
[A].INFOSYS
240  Spring  2000.
22 Shepard,R.1987.Towards  a  universal  law  of  generalization
for  psychological
science  [J].Science  237:1317-1323.
23 Steinhart,D.2001.Summary  Street:an  intelligent  tutoring  system
for  improving  student  writing  through
the  use  of  latent  semantic  analysis  [D].Unpublished  doctoral
dissertation,Institute  of  Cognitive
Science,University  of  Colorado,Boulder.
24 Till,R,E.Mross  &  W.Kintsch.1988.Time  course  of  priming  for
associate  and  inference
words  in  discourse
context  [J].Memory  and  Cognition  16:283-299.
25 van  Dijk,T.,&  W.Kintsch.1983.Strategies  of  discourse
comprehension
[M].New  York:Academic  Press.
26 桂詩(shī)春,2000,《新編心理語(yǔ)言學(xué)》[M]。上海:上海外語(yǔ)教育出版社,308-329。
 
下一篇資料:吳徽語(yǔ)入聲演變的方式
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
使用python進(jìn)行新聞文檔聚類(lèi)(潛在語(yǔ)義分析)
向量語(yǔ)義與嵌入
基于用戶(hù)的協(xié)同過(guò)濾和皮爾遜相關(guān)系數
今天來(lái)聊一聊人工智能技術(shù)中的矩陣和張量分解
Edwin Chen的Netflix推薦競賽技術(shù)總結
推薦系統與協(xié)同過(guò)濾、奇異值分解
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久