基于筆段的脫機手寫體漢字識別方法研究.pdf_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、脫機手寫體漢字識別具有廣闊的應(yīng)用前景和很高的理論價值。從應(yīng)用角度來看,它可以廣泛應(yīng)用于各種紙質(zhì)文檔的高速自動錄入,圖書資料的數(shù)字化,郵件的自動分揀,證件的自動閱讀,票據(jù)的自動處理等方面。從理論方面來講,研究脫機手寫體漢字識別可以認(rèn)識高難度模式識別的一般規(guī)律,有助于發(fā)展新的模式識別理論,從而對傳統(tǒng)的模式識別理論和技術(shù)在脫機手寫體漢字識別中的局限性有所突破,且因它涉及到模式識別、圖像處理、數(shù)字信號處理、自然語言理解、人工智能、模糊數(shù)學(xué)、信息

2、論、中文信息處理等許多學(xué)科,故脫機手寫體漢字識別在相關(guān)學(xué)科研究和多學(xué)科的融合研究中都有很高的理論價值。 從1966年IBM公司的Casey和Nagy首次發(fā)表印刷體漢字識別的文章開始算起,到現(xiàn)在漢字識別已有40多年的歷史。經(jīng)過無數(shù)科研工作者的不懈努力,漢字識別中的聯(lián)機手寫體識別和脫機印刷體識別已日趨成熟,出現(xiàn)了很多有實用價值的產(chǎn)品。只有脫機手寫體識別至今還不能達(dá)到令人滿意的效果,被稱為文字識別中“最難征服的領(lǐng)域”,尤其是基于結(jié)構(gòu)特

3、征的手寫體漢字識別更具有挑戰(zhàn)性。它不能利用筆劃順序、書寫輕重等重要信息,而且手寫體漢字因人而異,字體繁多,其中連筆問題和變形問題是手寫體漢字識別中的兩大難點。因此,如何解決這些問題已經(jīng)成為研究的熱點。 本文主要研究脫機手寫體漢字識別中基于筆段的識別方法,涉及到模式識別、圖像處理等技術(shù)。預(yù)處理在識別過程中占有重要地位,其中細(xì)化和特征點提取是本文的研究重點。細(xì)化方法主要有2類,第1類是一遍掃描,得到單側(cè)邊緣;第2類是多遍掃描,得到中

4、心線(骨架)。在第2類方法中,目前較成熟的是利用模板細(xì)化,但存在著模板數(shù)目太多,內(nèi)存需求大,運算速度慢等缺陷。為彌補這一缺陷,一些學(xué)者提出了基于分組的細(xì)化方法,但遠(yuǎn)未成熟。有鑒于此,本文在此基礎(chǔ)上提出了分組細(xì)化法,不僅能夠較快地實現(xiàn)細(xì)化,而且同時能夠標(biāo)記出除拐點之外的特征點。具體地說,即逐個掃描字符圖像像素點,由當(dāng)前像素點8鄰點的分組個數(shù)來判斷此點類型,對筆劃圖像前景點逐層做類型標(biāo)記(刪除某點時僅做刪除標(biāo)記,不立即置為背景,直到下一輪掃

5、描時,才視為背景),如此循環(huán),直到所有前景點被標(biāo)記完為止。在細(xì)化過程中,根據(jù)分組數(shù),標(biāo)記字符圖像中心線中的孤立點(0分叉)、端點(1分叉)、骨架點(2分叉)和交叉點(3~8分叉)。 拐點提取方法可分為以下2類:第1類方法是按局部特征來提取拐點,即從像素點入手。這一類方法運算量大,易受噪聲干擾。第2類方法按全局特征來檢測拐點,從筆劃的整體形狀入手,略去骨架的小波折。這類方法簡單,檢測速度快,受噪聲影響小,適合于尋找漢字骨架上的拐點

6、,如最大距離法。但最大距離法只能處理單拐點筆劃,不能處理多拐點筆劃,也不能判斷筆劃上拐點的個數(shù)。本文提出的遠(yuǎn)端拐點法,對最大距離法進行了改進。既保持了運算速度快、受噪聲影響小的優(yōu)點,又能判斷筆劃上拐點的個數(shù),找出多拐點筆劃上的所有拐點。 實驗證明,分組細(xì)化法和遠(yuǎn)端拐點法執(zhí)行速度快,內(nèi)存需求小,算法簡單,效率高。最后,本文給出了脫機手寫體漢字識別系統(tǒng)的流程,其中有些模塊尚未實現(xiàn),或尚有一定缺陷,這有待進一步研究。文中給出了部分算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論