《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > EDA与制造 > 设计应用 > 基于数学形态学的手写体汉字细化方法研究
基于数学形态学的手写体汉字细化方法研究
来源:微型机与应用2011年第20期
杨 侠,王希常,刘 江
(山东师范大学 信息科学与工程学院,山东 济南250014)
摘要: 提出了一种基于数学形态学的细化方法,该方法使用结构模板的方式对字符图像进行细化,并针对原有细化方法产生的细化不彻底现象,对原结构模板进行了改进。在常用细化结构模板的基础上,新增了几个结构模板,较好地解决了细化不彻底的现象。实验证明,细化后的图像保持了原图像的连通性并达到了很好的细化效果。
Abstract:
Key words :

摘  要: 提出了一種基于數(shù)學(xué)形態(tài)學(xué)的細化方法,該方法使用結(jié)構(gòu)模板的方式對字符圖像進行細化,并針對原有細化方法產(chǎn)生的細化不徹底現(xiàn)象,對原結(jié)構(gòu)模板進行了改進。在常用細化結(jié)構(gòu)模板的基礎(chǔ)上,新增了幾個結(jié)構(gòu)模板,較好地解決了細化不徹底的現(xiàn)象。實驗證明,細化后的圖像保持了原圖像的連通性并達到了很好的細化效果。
關(guān)鍵詞: 手寫體漢字特征字符細化;數(shù)學(xué)形態(tài)學(xué)

    隨著光標字符識別(OCR)技術(shù)的不斷發(fā)展和改進,手寫體漢字的識別已成為當前研究的重點。由于漢字結(jié)構(gòu)的復(fù)雜性和書寫的隨意性,手寫體漢字的分割和識別一直是研究中的熱點和難點,而手寫體漢字的細化則是分割和識別的前提和基礎(chǔ)。
    由于個人在書寫時所用的力度和工具不同,導(dǎo)致手寫體漢字的筆劃不均勻,對漢字結(jié)構(gòu)特征的提取和識別造成了一定的難度。為了消除這個問題,需要在分割和識別之前,對字符圖像進行細化處理。所謂漢字細化,主要是指通過一定的處理算法將漢字圖像中那些不影響漢字特征和漢字拓撲結(jié)構(gòu)的像素剔除,直至圖像漢字的中心骨架形成為止,即細化為單像素寬度的圖像[1]。
    在字符細化過程中,要保持字符的結(jié)構(gòu)信息不發(fā)生改變,這就要求細化后的字符圖像既要保持字符圖像筆劃的連續(xù)性,又要確保字符骨架盡量接近原圖像筆劃的中心線,無嚴重的畸變產(chǎn)生?;跀?shù)學(xué)形態(tài)學(xué)的圖像細化,能同時探測到圖像的外部和內(nèi)部信息,是一種應(yīng)用較為廣泛的圖像細化方法。
1 字符細化的研究現(xiàn)狀
    字符細化有助于突出字符的結(jié)構(gòu)特征,減少冗余的信息量,有利于字符的筆劃提取和字符識別。常用的字符細化方法主要有:
    (1)迭代算法[2-4]。該算法是在早期字符細化時最常使用的一種算法,主要是通過對筆劃邊緣像素的迭代剝除來完成的。參考文獻[4]中使用的是模板迭代去除算法,主要是通過設(shè)計一些去除模板和保留模板,將符合去除模板又不符合保留模板的像素點去掉,這樣反復(fù)執(zhí)行迭代過程,直到不發(fā)生變化為止。該算法的缺點是在細化過程中只考慮了字符的局部信息,容易造成筆劃在拐角處的分叉和短筆劃的縮進甚至消失。
    (2)基于筆劃類型的細化算法[1]。該算法與中軸變換算法[2]具有相類似的特點,可以說是結(jié)合了筆劃類型和中軸變換的一種方法。該算法在進行字符細化時,先判斷出筆劃的類型,再根據(jù)中軸變換算法求取該筆劃的中心線作為細化后的骨架,從而避免了細化過程中造成的字型畸變。該方法需要事先提取漢字的筆劃寬度,由于手寫體漢字的特殊性,實際應(yīng)用過程中較為復(fù)雜。
    (3)基于數(shù)學(xué)形態(tài)學(xué)的細化算法[5-6]。近年來,基于數(shù)學(xué)形態(tài)學(xué)的細化算法在字符細化過程中得到了廣泛的應(yīng)用。該方法主要是采用結(jié)構(gòu)元素模板的方式對字符結(jié)構(gòu)進行細化,其中,模板的選取對形態(tài)學(xué)方法的影響較大。參考文獻[6]主要使用數(shù)學(xué)形態(tài)學(xué)中的腐蝕方法對字符進行腐蝕操作,直至細化為單像素為止。參考文獻[5]主要使用形態(tài)學(xué)方法中的擊中與擊不中變換,結(jié)合印刷體漢字橫平豎直的結(jié)構(gòu)特點,對原有的結(jié)構(gòu)模板進行了一定的改進。該方法的優(yōu)點是能同時探測到字符圖像的內(nèi)部和外部,缺點是在細化過程中容易產(chǎn)生“毛刺”,并出現(xiàn)細化不徹底的現(xiàn)象。
    由于字符結(jié)構(gòu)等特性,在進行字符細化過程中容易產(chǎn)生各種問題,其中最常出現(xiàn)的有:(1)細化過程中容易產(chǎn)生“毛刺”,影響字符結(jié)構(gòu)特征的提??;(2)耗時較長,算法復(fù)雜度高;(3)細化后漢字筆劃的扭曲和歪斜;(4)容易出現(xiàn)細化不徹底的現(xiàn)象。
    本文在分析手寫體漢字的結(jié)構(gòu)特點和其結(jié)構(gòu)特性的基礎(chǔ)上,采用基于數(shù)學(xué)形態(tài)學(xué)的方法,對手寫體漢字進行細化。并針對細化過程中容易出現(xiàn)的細化不徹底現(xiàn)象,對原有的細化模板進行了一定的改進,使細化結(jié)果有了更進一步的改善。
2 基于數(shù)學(xué)形態(tài)學(xué)的手寫體漢字細化
    近年來,基于數(shù)學(xué)形態(tài)學(xué)的細化算法在圖像細化中得到廣泛應(yīng)用。本文采用數(shù)學(xué)形態(tài)學(xué)中的擊中或擊不中變換對數(shù)字圖像進行細化,該細化方法能夠同時探測到圖像的內(nèi)部和外部。

2.1 圖像預(yù)處理
    為了能更好地處理圖像的細節(jié)部分,減少干擾因素,在進行細化之前,需要對圖像進行預(yù)處理。首先將一幅手寫筆跡圖像通過掃描儀輸入計算機中,并將其轉(zhuǎn)化為灰度圖像;然后根據(jù)需要對圖像進行去噪、濾波處理,并對該圖像進行二值化處理;最后再對圖像進行反色變換,即將圖像中字符像素部分變?yōu)?,背景點部分變?yōu)?,這樣做的好處是將圖像中被處理部分變?yōu)?,細化過程即簡化為消除圖像中多余的“1”像素點。圖像的預(yù)處理結(jié)果如圖1所示。

2.2 結(jié)構(gòu)元素模板
    在基于數(shù)學(xué)形態(tài)學(xué)的細化算法中,模板的選取對細化結(jié)果影響很大,常用于圖像細化的結(jié)構(gòu)元素模板序列如圖2所示。


    其中,結(jié)構(gòu)元素模板中“1”表示字符筆劃像素點,“0”表示背景像素點,“*”表示既可以是字符筆劃像素點,也可以是背景像素點。
    通過實驗可以發(fā)現(xiàn),僅僅使用上述結(jié)構(gòu)元素模板序列容易造成細化不徹底的現(xiàn)象。本文根據(jù)手寫體漢字字符圖像的結(jié)構(gòu)特征,利用改進的結(jié)構(gòu)元素模板對細化后的字符圖像再進行進一步的細化,降低了細化不徹底現(xiàn)象的發(fā)生。改進的幾個結(jié)構(gòu)元素模板如圖3所示。

 

 

3 實驗
    本文使用Matlab進行實驗,首先輸入一幅手寫體漢字圖像,并對原圖像進行預(yù)處理,然后對圖像進行數(shù)學(xué)形態(tài)學(xué)中的閉運算處理,即對圖像先膨脹后腐蝕,目的是填充原始圖像筆劃中存在的孔洞,使圖像筆劃變得平滑,有利于下一步的細化操作。手寫體漢字的細化主要是通過擊中或擊不中變換算法,使用結(jié)構(gòu)元素模板對圖像進行細化處理。在本實驗中,首先采用常用的結(jié)構(gòu)模板對原圖像進行細化操作,再使用本文中改進的模板進行進一步的細化處理,實驗結(jié)果如圖4所示。

    從以上手寫體漢字的細化結(jié)果可以看出,基于數(shù)學(xué)形態(tài)學(xué)的細化方法很好地保持了字符圖像筆劃的連續(xù)性,很好地改善了原模板中細化不徹底的現(xiàn)象,細化后的骨架比較接近圖像筆劃的中心線,并保持了字符圖像的拓撲性。
    同時,本文算法仍有需要改進的地方,細化后的漢字筆劃上有“毛刺”現(xiàn)象產(chǎn)生,由于手寫體漢字筆劃的結(jié)構(gòu)特征等特性,在進行去“毛刺”處理時,易造成某些較短筆劃的丟失。
參考文獻
[1] 閆建國,高華.基于筆劃類型的字符細化算法研究[J].計算機工程與應(yīng)用,2001,11(02):83-84.
[2] LAM L,LEE S W.Thinning methodologies-a comprehensive survey[J].IEEE,1992,14(9):869-885.
[3] 張學(xué)東,張仁秋.一種快速的手寫體漢字細化算法[J].計算機應(yīng)用與軟件,2009,26(11):17-19.
[4] 柳回春,馬樹元.手寫體數(shù)字識別技術(shù)研究[J].計算機工程,2003,29(4):24-26.
[5] 王建平,錢自拓.基于數(shù)學(xué)形態(tài)學(xué)的圖像漢字筆畫細化和提取[J].合肥工業(yè)大學(xué)學(xué)報,2005,28(11):1431-1435.
[6] 金連文,徐睿.一種基于數(shù)學(xué)形態(tài)學(xué)的手寫漢字方向特征提取方法[J].計算機工程,2003,29(20):38-39.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容