午夜福利无码不卡在线观看_ 譯言網(wǎng) | OCR給力基礎指南：把文字從圖像中狠狠地抓出來(lái)

譯言的朋友可能時(shí)不時(shí)會(huì )遇到翻譯的文字深陷圖像的情況，此時(shí)要么打字輸入要么抓抓頭皮，但文字還在圖像里。是的，無(wú)論單張的圖片還是整本的書(shū)籍，抓取文字往往還是比逐字輸入便利一些。所以，我就把自己的一點(diǎn)經(jīng)驗分享。

文字，把它從圖像里抓取出來(lái)，這就是通俗所說(shuō)的OCR。當然從譯言的專(zhuān)業(yè)角度看，所謂OCR具體是Optical Character Recognition，即光學(xué)字符識別。網(wǎng)路上，一般涉及OCR的情況是把掃描版的PDF轉化為文字版，特別因為我們可以說(shuō)已經(jīng)是一個(gè)電子書(shū)大國，而手機txt閱讀也是需求巨大。文字版的確好處不少，便于傳播與引用，視覺(jué)清晰而可轉換，乃至具有二次制作的空間——至少文字版轉化成圖像是輕而易舉的事。不過(guò)，OCR的文字識別率一般不會(huì )是100%，需要作進(jìn)一步校對。

實(shí)際上，你對照圖像輸入文字已經(jīng)就是人工目光OCR了。OCR的軟件很多，但根據自己的經(jīng)驗，給力的也就那么兩三個(gè)。

首先說(shuō)單頁(yè)圖像OCR

單頁(yè)圖像的文字抓取我強烈推薦JOCR。JOCR的J是根據程序開(kāi)發(fā)者J?rg Schulenburg命名，參見(jiàn)喂雞百顆條目——由喂雞也可見(jiàn)該程序在業(yè)界的地位。JOCR的優(yōu)點(diǎn)是免費、綠色、輕量。免費不解釋?zhuān)G色就是不需要安裝，而體積則小到幾乎不可思議的不足100kb。然后不可想象的是，這么小的軟件其識別率還非常高，而且可以抓取20多種語(yǔ)言，包括中文繁體，夫復何求。

下載：JOCR原版、漢化版、使用說(shuō)明、MODI及“繁體中文識別”文件。

JOCR，網(wǎng)路上已經(jīng)有善良網(wǎng)友制作漢化版。其實(shí)不必，它常用的功能很簡(jiǎn)單。一般就是：第一步“Capture Region（選取需要OCR的區域）”，然后在語(yǔ)言框選擇語(yǔ)言，最后“Recognize（識別）”，于是就為你蹦出一個(gè)txt文本，接下去你還可以就著(zhù)這文本進(jìn)行校對。

注意：

1、你要成功使用JOCR，首先得確保安裝了MODI，因為JOCR是依托于它而運轉的。MODI神馬東東，Microsoft Office Document Imaging是也。網(wǎng)絡(luò )上，有時(shí)把它稱(chēng)為“微軟中文（簡(jiǎn)體）OCR識別引擎”，雖然偏頗但很給力。不過(guò)，好像它的確只能ocr中英文，包括繁體。MODI官方版微軟有下載。

軟件掛名微軟office，那自然就好說(shuō)了。如果安裝office的時(shí)候選擇了“完整”安裝選項，恭喜你你擁有它了。如果你沒(méi)有完整安裝office，那就再來(lái)一遍，或者單獨安裝MODI也行。好像office2010已經(jīng)終止了它，所以更得叫你自己另外安裝。

2、如果你需要抓取繁體，而使用的是簡(jiǎn)體windows系統，那么請將下列“繁體中文識別”文件復制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

TCCODE.UNI

TCPRINT.DAT

TCPRINT2.DAT

TCSERHT.DAT

TCTREE.DAT

TW_BU.DAT

TW_UB.DAT

TWBIG532.DLL

然后雙擊reg文件導入注冊表，ok。注意中的注意，導入注冊表時(shí)必須先關(guān)閉所有MODI窗口，真是媽的modi。

這時(shí)，在MODI的OCR選項卡里，“OCR語(yǔ)言”中即可看到“中文（繁體）”，也就是說(shuō)依托MODI運作的OCR軟件也具有了繁體識別功能。

或許你要問(wèn)，JOCR的使用（特別是繁體）不免麻煩了一點(diǎn)點(diǎn)。我的回答是，推薦JOCR正是因為它要利用到MODI及其繁體識別功能。一般的OCR軟件往往對繁體睜眼瞎，或者效果輕度強奸人意，而MODI在對你說(shuō)我爸是微軟。MODI抓取的效果那是比較的理想，不管你信不信，反正我是這么認為了，而且原文豎排也同樣可行。你爸你爺爺不是說(shuō)磨刀不誤砍柴工，而且微軟所產(chǎn)木有兼容啥的事多省心。同時(shí)，MODI比起來(lái)也是輕量體積，才5M多一點(diǎn)點(diǎn)。

最后說(shuō)整本批量OCR

一本PDF格式的書(shū)籍會(huì )有很多頁(yè)，自然要用批量才行。

一般認為最強大的專(zhuān)業(yè)OCR軟件是ABBYY Fine Reader（下載），號稱(chēng)“世界排名第一的OCR文字識別工具”是也。ABBYY Fine Reader不依托MODI運作，不免費體積龐大。一個(gè)好狀況是，慈悲的網(wǎng)友已經(jīng)制作了中文綠色版，見(jiàn)“最好的OCR識別軟件：ABBYY Fine Reader中文綠色版”。

我自己比較ABBYY Fine Reader與MODI的效果，親自覺(jué)得MODI略勝一籌（主要是在文字識別率上），或者各有勝出，至少難分上下。MODI抓取的結果只是文字，沒(méi)有字體版式啥的。ABBYY Fine Reader有還原版面的追求，所以可能反而把問(wèn)題復雜化。

總之，你還是信我一回。

MODI的一般使用方法是：在打開(kāi)的PDF文檔“文件”—“打印”—“名稱(chēng)”中選擇“Microsoft office document imaging writer”，打印你需要的（所有）頁(yè)面。注意，這個(gè)乃至后邊生成的文件地址最好在桌面一類(lèi)，不然找起來(lái)費神。于是，它生成一個(gè)后綴名為mdi的文件。你打開(kāi)這個(gè)mdi文件，在“工具”中選擇“使用OCR識別文本”，然后開(kāi)始可能是比較漫長(cháng)的識別過(guò)程。電腦不給力的話(huà)，一本數百頁(yè)的書(shū)可能漫長(cháng)到一覺(jué)醒來(lái)。識別結束后，你再在“工具”中選擇“將文本發(fā)送到Word”，然后它為你生成一個(gè)后綴名為htm的文件，里頭就有你想要的文字了。

關(guān)于OCR繁體書(shū)籍，先確保已經(jīng)走過(guò)上邊“繁體中文識別”的步驟。這時(shí)，你打開(kāi)mdi文件，在“工具”—“選項”—“OCR”中就能看到“中文（繁體）”選項，需要時(shí)選中即可。

附說(shuō)

悲催的是，我們抓取掃描版PDF版文字，常常還要制成PDF。

這里還說(shuō)說(shuō)自己的一點(diǎn)經(jīng)驗。對于word轉PDF，一般都采用PDF打印軟件，就是在word“打印”中選擇相應的打印機直接就打印成PDF，如下圖。我用過(guò)Word to PDF Converter，效果很不錯，但是它不免費，而且上次碰到一個(gè)字的字體嵌入錯誤（悲催的是這個(gè)字好像沒(méi)法改變字體而這里譯言也沒(méi)法輸入，字見(jiàn)）。Word to PDF Converter安裝后會(huì )在word工具欄生成圖標，見(jiàn)下圖。PDF Factory Pro的功能和效果也不錯（但是對DFKai-SB字體不支持，那可是我的大愛(ài)）。Tiny PDF這種在視覺(jué)效果上又輕度那啥了。

下載：Word to PDF Converter v3.0及其破解與配套驅動(dòng)，pdfFactory Pro 4.10 簡(jiǎn)體注冊中文版及其破解。破解版殺軟可能報毒，需要從殺軟中排除。

如果你使用的是word2010，恭喜你，它已經(jīng)能夠直接另存為PDF。Word2007弄個(gè)加載項Save As PDF and XPS也可以直接另存為（下載2007 Microsoft Office Save As PDF and XPS加載項）。

另外，具體的使用過(guò)程中你可能還會(huì )遇到別的神馬問(wèn)題。比如在word“幫助”—“關(guān)于Microsoft Office Word”—“禁用項目”中發(fā)現Word to PDF Converter被禁用了。

真的是最后，譯言很多朋友會(huì )遇到在圖片上翻譯的情況，這時(shí)可以用用SnagIt （下載SnagIt 8.0.1 漢化精簡(jiǎn)免安裝版）。

不忘友情提示，譯言的朋友可能面對屏幕持久而專(zhuān)注，特別是幫別人找錯的時(shí)候，所以不妨把窗口設置成蘋(píng)果綠（好像對word、txt窗口效果不錯）。具體顏色如上邊圖片所示，據說(shuō)對眼睛最好。

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久