譯言的朋友可能時(shí)不時(shí)會(huì )遇到翻譯的文字深陷圖像的情況,此時(shí)要么打字輸入要么抓抓頭皮,但文字還在圖像里。是的,無(wú)論單張的圖片還是整本的書(shū)籍,抓取文字往往還是比逐字輸入便利一些。所以,我就把自己的一點(diǎn)經(jīng)驗分享。
文字,把它從圖像里抓取出來(lái),這就是通俗所說(shuō)的OCR。當然從譯言的專(zhuān)業(yè)角度看,所謂OCR具體是Optical Character Recognition,即光學(xué)字符識別。網(wǎng)路上,一般涉及OCR的情況是把掃描版的PDF轉化為文字版,特別因為我們可以說(shuō)已經(jīng)是一個(gè)電子書(shū)大國,而手機txt閱讀也是需求巨大。文字版的確好處不少,便于傳播與引用,視覺(jué)清晰而可轉換,乃至具有二次制作的空間——至少文字版轉化成圖像是輕而易舉的事。不過(guò),OCR的文字識別率一般不會(huì )是100%,需要作進(jìn)一步校對。
實(shí)際上,你對照圖像輸入文字已經(jīng)就是人工目光OCR了。OCR的軟件很多,但根據自己的經(jīng)驗,給力的也就那么兩三個(gè)。
首先說(shuō)單頁(yè)圖像OCR
單頁(yè)圖像的文字抓取我強烈推薦JOCR。JOCR的J是根據程序開(kāi)發(fā)者J?rg Schulenburg命名,參見(jiàn)喂雞百顆條目——由喂雞也可見(jiàn)該程序在業(yè)界的地位。JOCR的優(yōu)點(diǎn)是免費、綠色、輕量。免費不解釋?zhuān)G色就是不需要安裝,而體積則小到幾乎不可思議的不足100kb。然后不可想象的是,這么小的軟件其識別率還非常高,而且可以抓取20多種語(yǔ)言,包括中文繁體,夫復何求。
下載:JOCR原版、漢化版、使用說(shuō)明、MODI及“繁體中文識別”文件。
JOCR,網(wǎng)路上已經(jīng)有善良網(wǎng)友制作漢化版。其實(shí)不必,它常用的功能很簡(jiǎn)單。一般就是:第一步“Capture Region(選取需要OCR的區域)”,然后在語(yǔ)言框選擇語(yǔ)言,最后“Recognize(識別)”,于是就為你蹦出一個(gè)txt文本,接下去你還可以就著(zhù)這文本進(jìn)行校對。
注意:
1、你要成功使用JOCR,首先得確保安裝了MODI,因為JOCR是依托于它而運轉的。MODI神馬東東,Microsoft Office Document Imaging是也。網(wǎng)絡(luò )上,有時(shí)把它稱(chēng)為“微軟中文(簡(jiǎn)體)OCR識別引擎”,雖然偏頗但很給力。不過(guò),好像它的確只能ocr中英文,包括繁體。MODI官方版微軟有下載。
軟件掛名微軟office,那自然就好說(shuō)了。如果安裝office的時(shí)候選擇了“完整”安裝選項,恭喜你你擁有它了。如果你沒(méi)有完整安裝office,那就再來(lái)一遍,或者單獨安裝MODI也行。好像office2010已經(jīng)終止了它,所以更得叫你自己另外安裝。
2、如果你需要抓取繁體,而使用的是簡(jiǎn)體windows系統,那么請將下列“繁體中文識別”文件復制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0
TCCODE.UNI
TCPRINT.DAT
TCPRINT2.DAT
TCSERHT.DAT
TCTREE.DAT
TW_BU.DAT
TW_UB.DAT
TWBIG532.DLL
然后雙擊reg文件導入注冊表,ok。注意中的注意,導入注冊表時(shí)必須先關(guān)閉所有MODI窗口,真是媽的modi。
這時(shí),在MODI的OCR選項卡里,“OCR語(yǔ)言”中即可看到“中文(繁體)”,也就是說(shuō)依托MODI運作的OCR軟件也具有了繁體識別功能。
或許你要問(wèn),JOCR的使用(特別是繁體)不免麻煩了一點(diǎn)點(diǎn)。我的回答是,推薦JOCR正是因為它要利用到MODI及其繁體識別功能。一般的OCR軟件往往對繁體睜眼瞎,或者效果輕度強奸人意,而MODI在對你說(shuō)我爸是微軟。MODI抓取的效果那是比較的理想,不管你信不信,反正我是這么認為了,而且原文豎排也同樣可行。你爸你爺爺不是說(shuō)磨刀不誤砍柴工,而且微軟所產(chǎn)木有兼容啥的事多省心。同時(shí),MODI比起來(lái)也是輕量體積,才5M多一點(diǎn)點(diǎn)。


最后說(shuō)整本批量OCR
一本PDF格式的書(shū)籍會(huì )有很多頁(yè),自然要用批量才行。
一般認為最強大的專(zhuān)業(yè)OCR軟件是ABBYY Fine Reader(下載),號稱(chēng)“世界排名第一的OCR文字識別工具”是也。ABBYY Fine Reader不依托MODI運作,不免費體積龐大。一個(gè)好狀況是,慈悲的網(wǎng)友已經(jīng)制作了中文綠色版,見(jiàn)“最好的OCR識別軟件:ABBYY Fine Reader中文綠色版”。
我自己比較ABBYY Fine Reader與MODI的效果,親自覺(jué)得MODI略勝一籌(主要是在文字識別率上),或者各有勝出,至少難分上下。MODI抓取的結果只是文字,沒(méi)有字體版式啥的。ABBYY Fine Reader有還原版面的追求,所以可能反而把問(wèn)題復雜化。
總之,你還是信我一回。
MODI的一般使用方法是:在打開(kāi)的PDF文檔“文件”—“打印”—“名稱(chēng)”中選擇“Microsoft office document imaging writer”,打印你需要的(所有)頁(yè)面。注意,這個(gè)乃至后邊生成的文件地址最好在桌面一類(lèi),不然找起來(lái)費神。于是,它生成一個(gè)后綴名為mdi的文件。你打開(kāi)這個(gè)mdi文件,在“工具”中選擇“使用OCR識別文本”,然后開(kāi)始可能是比較漫長(cháng)的識別過(guò)程。電腦不給力的話(huà),一本數百頁(yè)的書(shū)可能漫長(cháng)到一覺(jué)醒來(lái)。識別結束后,你再在“工具”中選擇“將文本發(fā)送到Word”,然后它為你生成一個(gè)后綴名為htm的文件,里頭就有你想要的文字了。
關(guān)于OCR繁體書(shū)籍,先確保已經(jīng)走過(guò)上邊“繁體中文識別”的步驟。這時(shí),你打開(kāi)mdi文件,在“工具”—“選項”—“OCR”中就能看到“中文(繁體)”選項,需要時(shí)選中即可。


附說(shuō)
悲催的是,我們抓取掃描版PDF版文字,常常還要制成PDF。
這里還說(shuō)說(shuō)自己的一點(diǎn)經(jīng)驗。對于word轉PDF,一般都采用PDF打印軟件,就是在word“打印”中選擇相應的打印機直接就打印成PDF,如下圖。我用過(guò)Word to PDF Converter,效果很不錯,但是它不免費,而且上次碰到一個(gè)字的字體嵌入錯誤(悲催的是這個(gè)字好像沒(méi)法改變字體而這里譯言也沒(méi)法輸入,字見(jiàn))。Word to PDF Converter安裝后會(huì )在word工具欄生成圖標,見(jiàn)下圖。PDF Factory Pro的功能和效果也不錯(但是對DFKai-SB字體不支持,那可是我的大愛(ài))。Tiny PDF這種在視覺(jué)效果上又輕度那啥了。
下載:Word to PDF Converter v3.0及其破解與配套驅動(dòng),pdfFactory Pro 4.10 簡(jiǎn)體注冊中文版及其破解。破解版殺軟可能報毒,需要從殺軟中排除。

如果你使用的是word2010,恭喜你,它已經(jīng)能夠直接另存為PDF。Word2007弄個(gè)加載項Save As PDF and XPS也可以直接另存為(下載2007 Microsoft Office Save As PDF and XPS加載項)。
另外,具體的使用過(guò)程中你可能還會(huì )遇到別的神馬問(wèn)題。比如在word“幫助”—“關(guān)于Microsoft Office Word”—“禁用項目”中發(fā)現Word to PDF Converter被禁用了。
真的是最后,譯言很多朋友會(huì )遇到在圖片上翻譯的情況,這時(shí)可以用用SnagIt (下載SnagIt 8.0.1 漢化精簡(jiǎn)免安裝版)。
不忘友情提示,譯言的朋友可能面對屏幕持久而專(zhuān)注,特別是幫別人找錯的時(shí)候,所以不妨把窗口設置成蘋(píng)果綠(好像對word、txt窗口效果不錯)。具體顏色如上邊圖片所示,據說(shuō)對眼睛最好。
聯(lián)系客服