欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
應用OpenCV進(jìn)行OCR字符識別

opencv自帶一個(gè)字符識別的例子,它的重點(diǎn)不是OCR字符識別,而主要是演示機器學(xué)習的應用。它應用的是UCI提供的字符數據(特征數據)。

DAMILES在網(wǎng)上發(fā)布了一個(gè)應用OpenCV進(jìn)行OCR的例子, http://blog.damiles.com/2008/11/basic-ocr-in-opencv/。

這些例子都只能用于學(xué)習OpenCV或熟悉OCR的簡(jiǎn)單流程,因為它們與當前比較專(zhuān)業(yè)的OCR引擎的識別率相去甚遠。


這里寫(xiě)下OpenCV下OCR的流程:

1. 特征提取

2. 訓練

3. 識別


特征提取

1. 在圖像預處理后,提取出字符相關(guān)的ROI圖像,并且大小歸一化,整個(gè)圖像的像素值序列可以直接作為特征。damiles是直接將整個(gè)字符圖像轉換化為vector向量特征作為特征輸入的。


2. 但直接將整個(gè)圖像作為特征數據維度太高,計算量太大,所以也可以進(jìn)行一些降維處理,減少輸入的數據量。拿到字符的ROI圖像,二值化。將圖像分塊,然后統計每個(gè)小塊中非0像素的個(gè)數,這樣就形成了一個(gè)較小的矩陣,這矩陣就是新的特征了。

UCI就是這么處理,詳見(jiàn)其說(shuō)明http://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

OpenCV中letter_recog例子就是使用的其特征數據。


訓練與識別

訓練與識別一般都采用同一種機器學(xué)習方法:

DAMILES應用了KNearest方法,對輸入數據進(jìn)行訓練和識別。

1. 數據輸入:

getData()函數中:

為trainData和trainClasses設置數據。


2. 初始化機器學(xué)習算法,及其訓練

knn=new CvKNearest( trainData, trainClasses, 0, false, K );

trainData, trainClasses數據已得到。

而K是分類(lèi)的數目。


訓練在CvKNearest算法初始化中已經(jīng)完成


3. 識別

獲取識別測試的數據,testData

result=knn->find_nearest(testData,K,0,0,nearest,0);

result為識別的結果。



而OpenCV自帶例子中,提供了boost,mlp,knearest,nbayes,svm,rtrees這些機器學(xué)習方法,進(jìn)行訓練和識別。

處理的步驟和方式都類(lèi)似。


這些例子的識別率不是很高,OCR識別率在90%以上才有較好的使用意義,所以,OCR還需要更多特征和分析方法,來(lái)提高識別率,tesseract是一個(gè)不錯的開(kāi)源OCR引擎。


-------------------

在tesseract最初的字體庫里,一種字體的字符樣本庫包括:94個(gè)字符,8種大小,4種字體(正常,粗體,斜體,斜粗體),每種20個(gè)樣本,共60160個(gè)樣本。

與UIC提供的字體庫不同的是,tesseract提供的是標準印刷體字體庫的識別,而UIC提供是手寫(xiě)體handwriting的特征數據。


數據之美提到,G公司(應該就是google了)的研究結果表明,在自然語(yǔ)言與機器翻譯領(lǐng)域,簡(jiǎn)單模型加上大量有效樣本數據,比復雜模型加上小樣本數據,有效的多。 這個(gè)結論應該適用機器學(xué)習的很多領(lǐng)域。運算足夠快,樣本足夠大,即使簡(jiǎn)單的模型,效果可能會(huì )出人意料。

由此可見(jiàn),收集有效的、大量的樣本庫是多么的重要。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
OpenCV進(jìn)階之路:神經(jīng)網(wǎng)絡(luò )識別車(chē)牌字符 - 博客 - 伯樂(lè )在線(xiàn)
再談OpenCV
數據分享|Python卷積神經(jīng)網(wǎng)絡(luò )CNN身份識別圖像處理在疫情防控下口罩識別、人臉識別
【領(lǐng)域報告】圖像OCR年度進(jìn)展|VALSE2018之十一
E2E-MLT - an Unconstrained End-to-End Method for Multi-Language Scene Text(論文解讀)
OpenCV3入門(mén)教程(三)Tesseract
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久