很多科技文獻,論文,都是用CAJViewer7.0稱(chēng)為“電子閱讀器”的一個(gè)程序來(lái)閱讀的。但CAJ文件像PDF文件一樣,是些類(lèi)似圖片格式的文本。這些圖片格式的文本轉換成可編輯的真正文本是有點(diǎn)麻煩的。僅僅用“拷貝,粘貼”的辦法,是不行的。需要進(jìn)行一個(gè)格式的轉換。
方法1:需要安裝一個(gè)軟件:Office2003,完整版大概680多兆。用CajViewer打開(kāi)所要轉的文件,工具欄里選“文件”——“打印”。
一般機器里安裝了Office2003之后,會(huì )隨著(zhù)安裝一個(gè)虛擬打印機MicrosoftOfficeDocumentI
先選打印“全部”,然后點(diǎn)“確定”。最后選擇文件保存路徑,但這時(shí),保存的這個(gè)文件是MDI格式的,打印完后MicrosoftOfficeDocumentI
方法2:從CAJ等文件中提取全文本的方法
現在網(wǎng)上的許多資料都是以CAJ、PDF等文件格式提供的,其中的文本不能被直接編輯。網(wǎng)上提供了許多處理這種情況的軟件,但是它們不是效率低,就是只能提取其中部分文本。本文所述利用微軟提供的OCR識別技術(shù)從CAJ、PDF等文件中提取全部文本的方法,簡(jiǎn)便快捷,效率很高。從不同格式的文件中提取文本前需要做好以下準備工作,安裝CAJViewer5.5瀏覽器軟件和acrobat5專(zhuān)業(yè)版瀏覽器軟件安裝Office2003,并完全安裝Office工具M(jìn)icrosoftOfficeDocumentI
。MicrosoftOfficeDocumentImage可以非常準確的全文件識別轉化中文、英文、表格。
一、CAJ文件的識別
?。ㄒ唬┦紫?,從網(wǎng)上下載CAJ格式的資料文件保存到本地硬盤(pán)上。
?。ǘ┤缓?,啟動(dòng)CAJViewer瀏覽器程序,并在該程序中打開(kāi)剛才保存的CAJ格式的文件。瀏覽文件到最后一頁(yè)后,不要關(guān)閉CAJ瀏覽器程序。
?。ㄈ┰贑AJ瀏覽器程序窗口中,選擇“文件”→“打印”,并選擇打印機為MicrosoftOfficeDocumentI
?。ㄋ模┍4娲蛴∥募?.prn)到適當位置。等待打印完成后,MicrosoftOfficeDocumentI
?。ㄎ澹┰贛icrosoftOfficeDocumentI
?。┻x擇“工具”下的“將文本發(fā)送到word”,最后將把整個(gè)CAJ文件識別輸出到word文件中。
PDF文件的識別
?。ㄒ唬┮晕谋拘问奖4娴腜DF文件,用acrobat5專(zhuān)業(yè)版,識別整個(gè)文件。直接打開(kāi)從網(wǎng)上下載的PDF格式文件另存為RTF文件,或者選擇工具欄上的文字選擇按鈕,然后選擇文字區域,然后復制到Word中即可。
?。ǘ┮詧D片形式保存的PDF文件,將PDF文件打印到MicrosoftOfficeDocumentI
?。ㄈ┘用艿腜DF文件先下載解密軟件,解密后在參照上述步驟1),2)進(jìn)行。
?。ㄋ模┓斌wPDF文件用上述步驟2)的方法識別到word后,用word中的“工具”→“語(yǔ)言”→“中文繁簡(jiǎn)轉換”
超星文件的識別
?。ㄒ唬┤募R別打印到MicrosoftOfficeDocumentI
?。ǘ┏俏募R別相對比較麻煩一些,如果還有問(wèn)題,可以先把超星打印成完整的PDF文件,然后再用上述識別PDF文件的方法轉成Word。
四、后記
經(jīng)過(guò)試驗,發(fā)現MicrosoftOfficeDocumentI
(caj,PDF,超星,維普............)中文字提取,如大家常用的caj,超星,維普............只需要兩個(gè)軟件VIRTUALPRINTER;尚書(shū)六號,先裝一個(gè)VIRTUALPRINTER(虛擬打印機)打成OCR軟件(我用的是尚書(shū)六號)可識別的圖像格式(如jpg)之后,就可以提取其中的文字了。這個(gè)方法尤其對于有些caj(轉成PDF什么也看不清楚的caj)特別有效。從不同格式的文件中提取文本前需要做好以下準備工作,安裝CAJViewer5.5瀏覽器軟件和acrobat5專(zhuān)業(yè)版瀏覽器軟件安裝Office2003,并完全安裝Office工具M(jìn)icrosoftOfficeDocumentI
使用MicrosoftOfficeDocumentImageWriter虛擬打印機
1、前提需要完全安裝Office2003-Office工具-MicrosoftOfficeDocumentI
完全安裝方法:在添加刪除程序里,選擇office2003,點(diǎn)擊更改,出現了office2003安裝修改界面,選擇-更改刪除-下一步-高級選項-office工具里找到MicrosoftOfficeDocumentI
2、以最麻煩的超星文件為例。(建議安裝ssreader3.8版本,因為3.9版對虛擬打印有限制)
在3.8版本中使用虛擬打也需要一點(diǎn)前期工作,點(diǎn)擊控制面板-打印機,列表中看到MicrosoftOfficeDocumentI
3、在MicrosoftOfficeDocumentImaging打開(kāi)文件中選擇:工具-使用OCR識別文本。注意,如果一次打印的超星頁(yè)數較多,ocr識別會(huì )花較長(cháng)時(shí)間。等待OCR識別完畢,選擇:工具-將文本發(fā)送到word-保存。
其他:如果是pdf或caj文件,打開(kāi)文件后直接選擇:打?。蛴№?yè)數……等等同2、3步驟。
聯(lián)系客服