編者按:
“清風(fēng)不識字,何事亂翻書(shū)?!?/span>
早在1929年,德國科學(xué)家Tausheck提出了OCR的概念,定義為將印刷體的字符從紙質(zhì)文檔中識別出來(lái)。而技術(shù)發(fā)展至今,識字,已不再僅限于識別書(shū)本上的文字,而是要識別真實(shí)世界開(kāi)放場(chǎng)景中的文字。因此,也衍生出了一系列問(wèn)題,例如真實(shí)環(huán)境中文字角度不可控、語(yǔ)種復雜多樣、環(huán)境噪聲多變等,針對這些問(wèn)題,學(xué)術(shù)界開(kāi)展了OCR領(lǐng)域研究工作。本文中,來(lái)自華中科技大學(xué)的白翔教授,將為大家介紹過(guò)去一年中,OCR領(lǐng)域的研究進(jìn)展。
文末,大講堂提供文中提到參考文獻的下載鏈接。
報告從文本檢測,文本識別,端到端識別,還有數據集四個(gè)方面展開(kāi)。
文本檢測方面。首先是去年自動(dòng)化所發(fā)表在ICCV的研究成果。之前的回歸方法大多為計算給定的default box和待要檢測的文本框的offset,而這里采用的是基于一個(gè)像素點(diǎn)回歸的方法,也就是回歸文本框與當前像素點(diǎn)的offset。另一個(gè)區別是融合不同層的特征,通過(guò)多任務(wù)學(xué)習進(jìn)行文本分割以及文本框的回歸。整體上,他們的工作在場(chǎng)景文字檢測任務(wù)上帶來(lái)了一定性能上的提升。
另外一個(gè)工作是用全卷積網(wǎng)絡(luò )將文本區域分成三種類(lèi)型,第一種類(lèi)型是文本內部區域,第二種類(lèi)型是背景區域,第三種類(lèi)型是文字的邊界。這種手段可以較好地應對之前的基于分割的場(chǎng)景文本檢測方法難以區分相鄰的文本實(shí)例的問(wèn)題,從而帶來(lái)檢測性能的提升。
上面這項工作的思路相對比較簡(jiǎn)單,就是在SSD基礎上加了一個(gè)模塊,這個(gè)模塊引入了attention的機制即預測text mask,通過(guò)文本和非文本的判別讓檢測更加關(guān)注到文本區域上。

這是百度的工作,做法也比較直接:通過(guò)一個(gè)弱監督的框架使用單詞級別的標注來(lái)訓練字符檢測器,然后通過(guò)結構分析將檢測到的字符組合成單詞。

這篇是我們今年發(fā)表在TIP上面的一篇工作。其主要改進(jìn)點(diǎn)為在去年TextBoxes基礎上增加了額外的兩個(gè)分支,其中一個(gè)分支被用來(lái)回歸文字水平包圍盒,另外一個(gè)分支被用來(lái)回歸四邊形(表示為4個(gè)頂點(diǎn))。此外,我們還用識別信息來(lái)過(guò)濾檢測到的候選框,進(jìn)一步提升檢測結果。


這是我們今年被CVPR接收的一篇文章。其主要思路是:對于文本來(lái)說(shuō),無(wú)論是回歸還是分類(lèi),特征往往是共享的。然而對于場(chǎng)景文本檢測問(wèn)題來(lái)說(shuō),特征共享對于這兩個(gè)任務(wù)其實(shí)是不利的。首先對于文本與背景的分類(lèi)問(wèn)題,一般要求特征具有方向不變性。但是對于回歸出文本的包圍框這個(gè)任務(wù),又要求特征對方向信息是敏感的。因此直接對這兩個(gè)任務(wù)做特征分享可能會(huì )帶來(lái)性能損失。這里我們采用非常簡(jiǎn)單的方法來(lái)解決這個(gè)問(wèn)題,就是在應對回歸和分類(lèi)兩個(gè)不同任務(wù)時(shí),在回歸部分跟原來(lái)一樣,在分類(lèi)部分中加入oriented response pooling。這個(gè)做法可以讓分類(lèi)特征具有旋轉不變性,可以更好地關(guān)注它是文本還是非文本的問(wèn)題,方向不帶來(lái)額外影響。最后對兩個(gè)任務(wù)進(jìn)行多任務(wù)學(xué)習,可以提高性能,在應對長(cháng)文本和方向變化比較劇烈的情況,提升尤為顯著(zhù)。

這篇同樣是我們今年被CVPR接收的一篇場(chǎng)景文本檢測的文章。這項工作主要是為了解決場(chǎng)景文本多方向,長(cháng)寬比變化較大等場(chǎng)景文本檢測中的難點(diǎn)問(wèn)題。之前的方法大多采用包圍盒回歸的方法或者文本區域分割的方法去解決上述問(wèn)題,但是效果并不是特別好。本篇文章用了一個(gè)新的思路來(lái)解決這個(gè)問(wèn)題,即檢測文本區域的角點(diǎn),然后通過(guò)組合角點(diǎn)的方式得到文本框。因此,我們設計了corner detection,思路是直接檢測文本區域的四個(gè)頂點(diǎn)。由于我們是檢測角點(diǎn),所以首先我們的方法不會(huì )受到感受野的影響,其次我們的方法對方向比較魯棒。此外我們還結合了position sensitive segmentation來(lái)提供文本區域的位置信息以及文本的實(shí)例信息,并使用segmentation map信息為角點(diǎn)組合成的包圍盒進(jìn)行打分,這比直接計算包圍盒得分更加魯棒。

角點(diǎn)檢測使用的是基于DSSD的方法,此外我們將角點(diǎn)檢測和文本區域的分割在同一個(gè)網(wǎng)絡(luò )框架內實(shí)現。
從實(shí)驗結果中可以看出用了角點(diǎn)以后檢測性能提升比較明顯。

第二個(gè)方面是關(guān)于文本識別的進(jìn)展,進(jìn)展稍微小一點(diǎn),因為目前的識別性能已經(jīng)比較好。

利用attention model去做序列文字識別,可能會(huì )因為圖像分辨率較低、遮擋、文字間間隔較大等問(wèn)題而導致attention位置并不是很準,從而造成字符的錯誤識別。??低曉贗CCV2017上提出使用字符像素級別的監督信息使attention更加準確地聚焦在文字區域,從而使識別變得更精準。他們用了部分像素級別的標注,有了類(lèi)別信息以后做多任務(wù),結果較為精準。并且只要部分字符的標注就可以帶來(lái)網(wǎng)絡(luò )性能的一定提升。

針對有形變或者任意方向文字的識別問(wèn)題,Cheng等人在CVPR2018上提出了該模型。他們在水平方向之外加了一個(gè)豎直方向的雙向LSTM,這樣的話(huà)就有從上到下,從下到上,從左到右,從右到左四個(gè)方向序列的特征建模。接下來(lái)引入一個(gè)權重,該權重用來(lái)表示來(lái)自不同方向的特征在識別任務(wù)中發(fā)揮作用的重要性。這對性能有一定提升,尤其是對任意排列的文字識別。


端到端識別從ICCV2017開(kāi)始出現了將檢測和識別統一在一個(gè)網(wǎng)絡(luò )框架下的思路。目前來(lái)說(shuō)這種做法訓練起來(lái)較為困難。它的主要思路是通過(guò)RPN產(chǎn)生一些proposal,然后在后面接上序列識別網(wǎng)絡(luò )。為了使網(wǎng)絡(luò )有效,往往需要對檢測和識別模塊分別進(jìn)行預訓練,預訓練完后再把兩個(gè)模塊一起進(jìn)行進(jìn)一步訓練。這種方法較為復雜。

其它方法也采用了大同小異的思路,比如去年ICCV的這篇文章,在RPN的基礎上,加入能產(chǎn)生任意方向文字框的proposal,可以做任意方向文字的端到端識別。

這篇CVPR的工作也是大同小異,使用了更好的檢測器EAST,識別部分和訓練過(guò)程基本和之前端到端的識別工作類(lèi)似。



最后我們介紹一些新的數據集。比如說(shuō)去年icdar比賽中的中文數據集RCTW,以及多語(yǔ)言檢測數據集MLT,同時(shí)包含了語(yǔ)種識別和檢測任務(wù)。RCTW數據集主要由場(chǎng)景中文文字構成,總共包含了12,034張圖片,其中訓練集8034張,測試集4000張。比賽分為文字檢測和端到端文字識別兩部分。MLT數據集由6個(gè)文種共9種語(yǔ)言的文字圖片構成,共18,00張圖片。該比賽包括了文字檢測、語(yǔ)種識別以及文字檢測加語(yǔ)種識別三個(gè)任務(wù)。


另外是今年華南理工金連文老師提出的比較有意思的數據集,用來(lái)探討異常排列、有形變的文字的檢測和識別問(wèn)題。該數據集共1000張訓練圖片和500張測試圖片,每張圖片包含了至少一個(gè)曲行文字樣本。另外,ICDAR2017上也有一個(gè)類(lèi)似的數據集Total-Text,包括了水平方向、多方向以及曲形文字共1555張圖片。
總結一下,通過(guò)數據集的演變過(guò)程,關(guān)于場(chǎng)景文字的研究方法有這樣幾個(gè)趨勢:第一,以后檢測和識別端到端進(jìn)行可能是一個(gè)趨勢,但是未必一定把這兩個(gè)任務(wù)接在一起;第二,處理更難的文字,例如不規則文字,可能也是一個(gè)有意思的方向;第三,方法的泛化能力,英文上結果比較好的模型在中文中不一定有效,中英文差別很大,應設計適應多語(yǔ)種的方法來(lái)解決這些問(wèn)題。
參考文獻鏈接:
https://pan.baidu.com/s/10LT47XsUpzBjHu8S9mcy7Q 密碼: k2iv

主編:袁基睿,編輯:程一
整理:曲英男、楊茹茵、高科、高黎明
作者簡(jiǎn)介:
聯(lián)系客服