欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
用Pdg2Pic、TextForever實(shí)現批量OCR

用Pdg2Pic、TextForever實(shí)現批量OCR

作者:馬健
郵箱:stronghorse@tom.com
主頁(yè):http://stronghorse.yeah.net
發(fā)布:2006.09.26

目錄
一、FAQ
二、開(kāi)始轉換
    1、為在簡(jiǎn)體中文環(huán)境下OCR繁體中文所做的準備
    2、OCR前的圖像準備
    3、開(kāi)始OCR
    4、OCR之后的麻煩事

一、FAQ

Q:什么是OCR?
A:OCR是Optical Character Recognition(光學(xué)字符識別)的縮寫(xiě),簡(jiǎn)單點(diǎn)說(shuō),就是將掃描出來(lái)的書(shū)籍圖像文件,轉換成可以編輯、查找的文本文件。

Q:為什么要OCR?
A:理由如下(不是全集,您還可以想象其它的理由):

  • 以目前的技術(shù),圖像文件還不能進(jìn)行全文檢索,但是轉換成文本后想怎么檢索都好說(shuō)。
  • 圖像文件上的文字很難被引用,但是復制、粘貼文本誰(shuí)不會(huì )?
  • 與文本文件的尺寸相比,圖像文件顯得大了點(diǎn)。
  • 圖像文件的瀏覽比較受限制,看多了容易疲勞,文本文件相對好一點(diǎn)。當然也有人對此持相反觀(guān)點(diǎn)。
  • 不可否認,目前網(wǎng)上文本格式的書(shū)源要比圖像格式的貧乏許多,在OCR的門(mén)檻降低到人人都能參予后,相信會(huì )有助于豐富文本格式的書(shū)源。

Q:OCR的好處已經(jīng)明白了,那么它有沒(méi)有什么短處?
A:世間不如意,常十之八九:

  • 以目前的OCR技術(shù),還不能保證準確率達到100%,因此OCR出來(lái)的結果可能會(huì )包含大量的錯字、別字,需要進(jìn)行校對。
  • 以目前的技術(shù),想完整再現原文版式是一件很有難度的工作,因此OCR出來(lái)的結果通常還需要重新排版。
  • OCR需要進(jìn)行復雜的內部運算,消耗大量的CPU時(shí)間。
  • 最關(guān)鍵的一點(diǎn):以目前能夠達到的技術(shù),OCR用來(lái)識別以文字為主的文史類(lèi)書(shū)籍還湊合,要想識別圖文混排、中英文混排、包含復雜表格、字體應用比較豐富(尤其是斜體)的理工類(lèi)書(shū)籍,識別出來(lái)的結果多半有點(diǎn)哭笑不得。

如果看了上面的說(shuō)明后您已經(jīng)對OCR心灰意冷,可以不必浪費時(shí)間往下看了。

Q:為什么要用Pdg2Pic、TextForever來(lái)做OCR?
A:目前市面上有很多成熟的OCR產(chǎn)品,包括清華、漢王、丹青等。從我使用的情況看,這些產(chǎn)品的識別率基本上已經(jīng)接近技術(shù)的極限, 只是在使用方便性上還有一些不足,尤其是在批量識別方面。而Pdg2Pic、TextForever(以下簡(jiǎn)稱(chēng)PT)則是專(zhuān)門(mén)為了批量OCR而設計的。如果您覺(jué)得批量識別用處不大,建議您還是選擇這些專(zhuān)業(yè)OCR軟件。

Q:PT在技術(shù)上有什么特點(diǎn)?
A:PT基于微軟Office 2003提供的Microsoft Office Document Imaging (MODI)所帶的OCR引擎。這個(gè)引擎的中文識別(包括簡(jiǎn)體和繁體)采用的是清華的技術(shù),因此具有下列特點(diǎn):

  • 在簡(jiǎn)體中文環(huán)境下識別簡(jiǎn)體,或在繁體中文環(huán)境下識別繁體都沒(méi)有問(wèn)題,但是想在簡(jiǎn)體環(huán)境下識別繁體,或在繁體下識別簡(jiǎn)體,則需要對軟件進(jìn)行配置或安裝,詳見(jiàn)后面的敘述。
  • 識別率比上不足,比下有余,畢竟清華也不會(huì )傻到自斷財路。但是在所有商業(yè)級OCR軟件中,微軟MODI是唯一公開(kāi)編程接口的,因此才能被PT所調用。如果您能夠提供識別率更高,并且沒(méi)有法律后患的其它OCR引擎的編程接口,我很愿意對PT進(jìn)行更改。
  • OCR引擎本身提供了對字符的識別,但是沒(méi)有提供版式恢復功能。MODI將識別結果發(fā)送到Word里的版式校正是微軟自己做的,我自認做不到那個(gè)水平,所以OCR出來(lái)的結果在排版方面需要多花點(diǎn)功夫。

Q:為什么其它OCR軟件都很大,而MODI的尺寸這么?。ê?jiǎn)體中文版安裝包才5MB多一點(diǎn))?
A:在歷史上,針對印刷體OCR的技術(shù)路線(xiàn),國內OCR界曾經(jīng)爆發(fā)過(guò)一場(chǎng)爭議,主要觀(guān)點(diǎn)分成兩派:

  • 一派認為為了提高識別率,應該先識別出印刷(打?。r(shí)采用的字體,然后針對字體特征進(jìn)行識別。國外OCR界在識別字母文字時(shí)也有人持相同的觀(guān)點(diǎn)。這種路線(xiàn)的好處是顯而易見(jiàn)的:
    1、在識別出字體后,字符特征相對固定,識別率能夠得到提高。
    2、得到原文的字體后,便于恢復原文版式。
    當然缺點(diǎn)也是明擺著(zhù)的:需要針對每一種可能遇到的字體建立特征庫,如果需要識別的字體不在事先建立的特征庫范圍內,則識別率急劇下降。但是眾多的特征庫不僅占用存儲空間,對OCR的運行效率也有影響。
  • 另一派認為事物是有區別的,但又是普遍聯(lián)系的,如果割裂這些聯(lián)系,就會(huì )……(以下省略高中《辨正唯物主義》教材中的若干著(zhù)名論斷)??傊?,在他們看來(lái),字體會(huì )變,但是漢字的筆畫(huà)是不會(huì )變的,中文的“文”字那一橫在宋體中是平的,在楷書(shū)中是斜的,但是一橫就是一橫,絕對不會(huì )變成一豎。因此該派認為沒(méi)有必要為所有字體建立特征庫,大家共用一個(gè)就可以了。這種路線(xiàn)的好處是:
    1、特征庫比較單純,庫的體積相對較小,識別速度也相對較快。
    2、即使需要識別的字體比較少見(jiàn),識別率也不會(huì )差到離譜。
    這種路線(xiàn)的缺點(diǎn)是:
    1、需要針對大量字體進(jìn)行特征歸納,并在機器歸納基礎上手工調整,開(kāi)發(fā)的時(shí)候比較累。
    2、由于大量字體之間的平均效果,識別率會(huì )比采用第一種路線(xiàn)的差上那么一點(diǎn)點(diǎn),不過(guò)做好了感覺(jué)就不是那么明顯了。
    3、由于沒(méi)有字體信息,很難恢復原文版式。

在開(kāi)始的時(shí)候,由于硬盤(pán)資源對于用戶(hù)來(lái)說(shuō)是一種比較昂貴的資源,因此清華是第二條路線(xiàn)的堅定支持者和倡導者。但是隨著(zhù)OCR引擎的競爭逐漸轉移到對原文版式的恢復上,而硬盤(pán)價(jià)格直線(xiàn)下降,清華開(kāi)始全線(xiàn)轉移到第一條技術(shù)路線(xiàn)上。從MODI安裝的文件來(lái)看,微軟購買(mǎi)的顯然是清華采用第二條技術(shù)路線(xiàn)時(shí)的產(chǎn)品,所有字體共用一個(gè)特征庫,尺寸當然就下來(lái)了。

與此形成對照的是某些人喜歡用的CAJViewer。從文件上看,它采用的也是清華的OCR引擎,而且是按第一條路線(xiàn)實(shí)現的,附帶龐大的字體特征庫,安裝包幾乎是MODI的10倍大小,速度也比MODI慢。但是從應用功能上看,CAJViewer僅僅識別出純文本,沒(méi)有字體信息,至少沒(méi)有將識別出來(lái)的字體信息展現出來(lái)。用一個(gè)形象但不一定恰當的比喻,相當于花錢(qián)買(mǎi)了一整只烤鴨,結果只吃了一個(gè)鴨PP就算了,總給人一點(diǎn)冤大頭的感覺(jué)。

Q:如果我對OCR出來(lái)的結果不滿(mǎn)意,怎么辦?
A:OCR效果和下列因素有關(guān):

  • OCR引擎。這個(gè)不行就只能換一個(gè)。不過(guò)如前所述,我能用的就只有MODI一個(gè)。
  • 圖像質(zhì)量。這個(gè)其實(shí)是決定OCR質(zhì)量最為關(guān)鍵的因素。好的圖像應該黑白分明、頁(yè)面端正、字跡清楚,無(wú)筆畫(huà)間斷、粘連,或污跡干擾。如果原始圖像較差,可以先手工進(jìn)行修正,包括糾斜、去除污跡、調整圖像明暗等。處理時(shí)推薦使用專(zhuān)業(yè)圖像處理軟件,如果用不了也可以用簡(jiǎn)單點(diǎn)的ComicEnhancer Pro。
  • 語(yǔ)言選擇。中文簡(jiǎn)體和繁體的識別是不同的,英文和中文的識別也不同,因此針對圖像中的文字,選擇合適的語(yǔ)言,有助于提高識別率。

二、開(kāi)始轉換

1、為在簡(jiǎn)體中文環(huán)境下OCR繁體中文所做的準備

如果您不需要在簡(jiǎn)體環(huán)境下識別繁體,或在繁體環(huán)境下識別簡(jiǎn)體,可以跳過(guò)本節。

讓繁體Office 2003支持中文簡(jiǎn)體OCR非常簡(jiǎn)單:到下面的頁(yè)面去下載一個(gè)簡(jiǎn)體OCR安裝包,運行即可安裝:

http://www.microsoft.com/downloads/details.aspx?familyid=dd172063-9517-41d8-82af-29c38f7437b6&displaylang=zh-tw

簡(jiǎn)體中文Office 2003想支持繁體OCR則沒(méi)有這么簡(jiǎn)單,至少在我寫(xiě)這篇文章的時(shí)候,微軟尚未發(fā)布繁體OCR的安裝包。不過(guò)變通的方法也不是沒(méi)有:找一臺安裝了繁體中文Office 2003的機器,進(jìn)入下面的文件夾:

C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

將下面的文件復制到安裝了簡(jiǎn)體中文Office 2003的相同文件夾下:

TCCODE.UNI
TCPRINT.DAT
TCPRINT2.DAT
TCSERHT.DAT
TCTREE.DAT
TW_BU.DAT
TW_UB.DAT
TWBIG532.DLL

這樣改造后,直接用Office 2003的MODI還不能OCR繁體,因為在MODI的“工具->選項”中,在“OCR”這一頁(yè)的“OCR語(yǔ)言”項里就沒(méi)有“中文(繁體)”選擇。不過(guò)對于直接調用MODI的編程接口的PT來(lái)說(shuō),這樣處理后就已經(jīng)可以識別繁體中文了。

我比較了一下,似乎在繁體中文Office 2003環(huán)境下安裝簡(jiǎn)體OCR包后,并沒(méi)有改變MODI的EXE文件,所以我猜測可以通過(guò)更改配置的方法讓簡(jiǎn)體中文MODI出現“中文(繁體)”選項,不過(guò)我試了一下沒(méi)有試出來(lái),如果有哪位高人愿意指點(diǎn),還請不吝指教。

另外在簡(jiǎn)體中文環(huán)境下,按照上述步驟設置后,用PT識別出來(lái)的繁體中文是GBK編碼的繁體字,可以用TextForever的“編碼轉換功能”批量轉換成GB編碼的簡(jiǎn)體字。

2、OCR前的圖像準備

想要OCR,當然首先就要有OCR所需的圖像文件。對于Pdg2Pic,只需準備PDG文件即可。對于TextForever,由于它只認單色(黑白)TIFF文件,因此如果原始圖像文件不是單色TIFF,需要先對圖像進(jìn)行轉換,轉換的時(shí)候如果能順手對圖像進(jìn)行一下清理、糾斜當然更好。

轉換、清理、糾斜都可以使用專(zhuān)業(yè)圖像處理軟件完成,不過(guò)對于一般用戶(hù),建議使用簡(jiǎn)單點(diǎn)的免費軟件ComicEnhancer Pro 。 這個(gè)軟件不僅能夠批量將圖像轉換成單色TIFF(“色彩”選項選“單色”),而且能夠對圖像進(jìn)行處理,以改善頁(yè)面效果。所有處理功能都能實(shí)時(shí)預覽到處理效果,便于修改。

需要注意的是,對于PDG文件,建議不要轉成圖像后再用TextForever識別,而是直接用Pdg2Pic識別,以避免某些多層PDG轉來(lái)轉去損失質(zhì)量。

3、開(kāi)始OCR

Pdg2Pic和TextForever的操作都差不多,先選擇需要OCR的文件夾,然后選擇結果文件,即可開(kāi)始轉換。對OCR選項的解釋如下:

自動(dòng)旋轉:選中此復選框可檢測頁(yè)面中文本的方向,并旋轉倒置或傾斜的頁(yè)面圖像。
自動(dòng)拉伸:選中此復選框可檢測頁(yè)面中文本的方向,并對正稍未對齊的頁(yè)面。
語(yǔ)言:選擇OCR語(yǔ)言??晒┻x擇的有英文、中文簡(jiǎn)體、中文繁體。缺省為中文簡(jiǎn)體。

注意:自動(dòng)旋轉、自動(dòng)拉伸均需要時(shí)間,考慮到多數文件不需要進(jìn)行校正,因此這兩個(gè)選項缺省不選中。如果頁(yè)面確實(shí)變形比較厲害,可以選中后重新OCR。不過(guò)有時(shí)“自動(dòng)旋轉”出來(lái)的結果偏差比較大,所以建議只選“自動(dòng)拉伸”即可。

4、OCR之后的麻煩事

OCR過(guò)程很簡(jiǎn)單,點(diǎn)幾下鼠標就完事了,但是要想真正將結果實(shí)用化,還至少需要做兩件事:校對和排版。當然這兩件事也可以合二為一。

對于有條件的人來(lái)說(shuō),校對可以用軟件自動(dòng)進(jìn)行,但是自動(dòng)校對軟件不是一般人愿意裝或能夠裝的,那就只能靠人工校對。人工校對的時(shí)候建議用ComicsViewer,它能同時(shí)顯示圖像和文本,便于對照。對于真正對電子書(shū)比較投入、對校對要求較高的人,建議還是仿照一般電子書(shū)網(wǎng)站的作法,找幾個(gè)同道,成立一個(gè)校對組做校對,一個(gè)人做太枯燥了。

排版也是一個(gè)比較麻煩的過(guò)程,各人喜好不同。我比較喜歡用TextForever的“段落合并”功能,通過(guò)調整“上一行行長(cháng)比平均行長(cháng)短少1/x”參數來(lái)改變效果(這個(gè)選項缺省不選,需要手工打開(kāi))。

 

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
譯言網(wǎng) | OCR給力基礎指南:把文字從圖像中狠狠地抓出來(lái)
在簡(jiǎn)體中文Office 2003下OCR繁體中文、日文、韓文
用MODI OCR 21種語(yǔ)言
如何在微軟Office Document Imaging中添加日文OCR ?
新手學(xué)習:PPT如何將簡(jiǎn)體轉為繁體?PPT更加中國風(fēng)~
書(shū)寫(xiě)名字使用簡(jiǎn)體還是繁體?
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久