欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
中文分詞入門(mén)之資源 | 我愛(ài)自然語(yǔ)言處理

  作為中文信息處理的“橋頭堡”,中文分詞在國內的關(guān)注度似乎遠遠超過(guò)了自然語(yǔ)言處理的其他研究領(lǐng)域。在中文分詞中,資源的重要性又不言而喻,最大匹配法等需要一個(gè)好的詞表,而基于字標注的中文分詞方法又需要人工加工好的分詞語(yǔ)料庫。所以想研究中文分詞,第一步需要解決的就是資源問(wèn)題,這里曾經(jīng)介紹過(guò)“LDC上免費的中文信息處理資源”,其中包括一個(gè)有頻率統計的詞表,共計44405條,就可以作為一個(gè)不錯的中文分詞詞表使用。而一個(gè)好的人工分詞語(yǔ)料庫,需要很大的人力物力投入,所以無(wú)論研究還是商用往往需要一定的費用購買(mǎi),好在SIGHAN Bakeoff為我們提供了一個(gè)非商業(yè)使用(non-commercial)的免費獲取途徑,以下將介紹SIGHAN Bakeoff及相關(guān)的中文分詞入門(mén)資源。
  SIGHAN是國際計算語(yǔ)言學(xué)會(huì )(ACL)中文語(yǔ)言處理小組的簡(jiǎn)稱(chēng),其英文全稱(chēng)為“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解為“SIG漢“或“SIG漢“。而B(niǎo)akeoff則是SIGHAN所主辦的國際中文語(yǔ)言處理競賽,第一屆于2003年在日本札幌舉行(Bakeoff 2003),第二屆于2005年在韓國濟州島舉行(Bakeoff 2005), 而2006年在悉尼舉行的第三屆(Bakeoff 2006)則在前兩屆的基礎上加入了中文命名實(shí)體識別評測。目前SIGHAN Bakeoff已成功舉辦了6屆,其中Bakeoff 2005的數據和結果在其主頁(yè)上是完全免費和公開(kāi)的,但是請注意使用的前提是非商業(yè)使用(non-commercial):

  The data and results for the 2nd International Chinese Word Segmentation Bakeoff are now available for non-commercial use.

  在Bakeoff 2005的主頁(yè)上,我們可以找到如下一行:“The complete training, testing, and gold-standard data sets, as well as the scoring script, are available for research use”,在這一行下面提供了三個(gè)版本的icwb2-data。下載解壓后,通過(guò)README就可以很清楚的了解到它包含哪些中文分詞資源,特別需要說(shuō)明的是這些中文分詞語(yǔ)料庫分別由臺灣中央研究院(Academia Sinica)、香港城市大學(xué)(City University of Hong Kong)、北京大學(xué)(Peking University)及微軟亞洲研究院(Microsoft Research)提供,其中前二者是繁體中文,后二者是簡(jiǎn)體中文,以下按照README簡(jiǎn)要介紹icwb2-data:

1) 介紹(Introduction):
  本目錄包含了訓練集、測試集及測試集的(黃金)標準切分,同時(shí)也包括了一個(gè)用于評分的腳本和一個(gè)可以作為基線(xiàn)測試的簡(jiǎn)單中文分詞器。(This directory contains the training, test, and gold-standard data used in the 2nd International Chinese Word Segmentation Bakeoff. Also included is the script used to score the results submitted by the bakeoff participants and the simple segmenter used to generate the baseline and topline data.)

2) 文件列表(File List)
  在gold目錄里包含了測試集標準切分及從訓練集中抽取的詞表(Contains the gold standard segmentation of the test data along with the training data word lists.)
  在scripts目錄里包含了評分腳本和簡(jiǎn)單中文分詞器(Contains the scoring script and simple segmenter.)
  在testing目錄里包含了未切分的測試數據(Contains the unsegmented test data.)
  在training目錄里包含了已經(jīng)切分好的標準訓練數據(Contains the segmented training data.)
  在doc目錄里包括了bakeoff的一些指南(Contains the instructions used in the bakeoff.)

3) 編碼(Encoding Issues)
  文件包括擴展名”.utf8”則其編碼為UTF-8(Files with the extension “.utf8″ are encoded in UTF-8 Unicode.)
  文件包括擴展名”.txt”則其編碼分別為(Files with the extension “.txt” are encoded as follows):
  前綴為as_,代表的是臺灣中央研究院提供,編碼為Big Five (CP950);
  前綴為hk_,代表的是香港城市大學(xué)提供,編碼為Big Five/HKSCS;
  前綴為msr_,代表的是微軟亞洲研究院提供,編碼為 EUC-CN (CP936);
  前綴為pku_,代表的北京大學(xué)提供,編碼為EUC-CN (CP936);
  EUC-CN即是GB2312(EUC-CN is often called “GB” or “GB2312″ encoding, though technically GB2312 is a character set, not a character encoding.)

4) 評分(Scoring)
  評分腳本“score”是用來(lái)比較兩個(gè)分詞文件的,需要三個(gè)參數(The script ‘score’ is used to generate compare two segmentations. The script takes three arguments):
  1. 訓練集詞表(The training set word list)
  2. “黃金”標準分詞文件(The gold standard segmentation)
  3. 測試集的切分文件(The segmented test file)
 
  以下利用其自帶的中文分詞工具進(jìn)行說(shuō)明。在scripts目錄里包含一個(gè)基于最大匹配法的中文分詞器mwseg.pl,以北京大學(xué)提供的人民日報語(yǔ)料庫為例,用法如下:
  ./mwseg.pl ../gold/pku_training_words.txt < ../testing/pku_test.txt > pku_test_seg.txt
  其中第一個(gè)參數需提供一個(gè)詞表文件pku_training_word.txt,輸入為pku_test.txt,輸出為pku_test_seg.txt。
  利用score評分的命令如下:
  ./score ../gold/pku_training_words.txt ../gold/pku_test_gold.txt pku_test_seg.txt > score.txt
  其中前三個(gè)參數已介紹,而score.txt則包含了詳細的評分結果,不僅有總的評分結果,還包括每一句的對比結果。這里只看最后的總評結果:


= SUMMARY:
=== TOTAL INSERTIONS: 9274
=== TOTAL DELETIONS: 1365
=== TOTAL SUBSTITUTIONS: 8377
=== TOTAL NCHANGE: 19016
=== TOTAL TRUE WORD COUNT: 104372
=== TOTAL TEST WORD COUNT: 112281
=== TOTAL TRUE WORDS RECALL: 0.907
=== TOTAL TEST WORDS PRECISION: 0.843
=== F MEASURE: 0.874
=== OOV Rate: 0.058
=== OOV Recall Rate: 0.069
=== IV Recall Rate: 0.958
### pku_test_seg.txt 9274 1365 8377 19016 104372 112281 0.907 0.843 0.874 0.058 0.069 0.958

  說(shuō)明這個(gè)中文分詞器在北大提供的語(yǔ)料庫上的測試結果是:召回率為90.7%,準確率為84.3%,F值為87.4%等。
  SIGHAN Bakeoff公開(kāi)資源的一個(gè)重要意義在于這里提供了一個(gè)完全公平的平臺,任何人都可以拿自己研究的中文分詞工具進(jìn)行測評,并且可以和其公布的比賽結果對比,是驢子是馬也就一目了然了。

注:原創(chuàng )文章,轉載請注明出處“我愛(ài)自然語(yǔ)言處理”:www.52nlp.cn

本文鏈接地址:http://www.52nlp.cn/中文分詞入門(mén)之資源

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
Hanlp分詞之CRF中文詞法分析詳解
最全中文自然語(yǔ)言處理數據集、平臺和工具整理
基于字標注的中文分詞方法 | 我愛(ài)自然語(yǔ)言處理
自然語(yǔ)言處理(4)之中文文本挖掘流程詳解(小白入門(mén)必讀)
把任意文件隱藏在一張圖片里[絕了!]
ANSI是什么編碼?
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久