123,123

基于语音起始段检测语音可懂度客观评价方法

2015年电子技术应用第6期

徐宇卓1，马建芬1，张雪英2

1.太原理工大学计算机科学与技术学院，山西太原030024； 2.太原理工大学信息工程学院，山西太原030024

摘要： 传统的语音评价算法，如SNR，存在语音的可懂度相关性不高的问题。有研究表明，语音的不同部分对可懂度的贡献不同，语音的浊音起始段对可懂度的影响较大。提出一种可懂度相关性相对较高的语音评价算法。在计算分段SNR之前，对语音段进行选择，选出起始段。所提出方法的可懂度计算结果与主观得分进行比较，实验结果表明，结合语音起始段(speech onset)检测算法，能够将可懂度与主观评价的相关值分别提高0.11（辅音）和0.06（句子），这也从一个侧面验证了语音的起始段对可懂度有较大影响这一研究结论。

關(guān)鍵詞： 语音可懂度分段信噪比语音起始段检测相关系数

中圖分類(lèi)號(hào)： TP391
文獻(xiàn)標(biāo)識(shí)碼： A
文章編號(hào)： 0258-7998(2015)06-0147-03

Automatic locate algorithm for the defects of industrial CT based on block fractal

Chen Peixing1，2，Wang Mingquan1，2，Li Shihu1，2，Hou Huilin1，2，Wang Yu1，2

1.Key Laboratory of Instrumentation Science & Dynamic Measurement，North University of China，Taiyuan 030051，China； 2.School of Information and Communication Engineering，North University of China，Taiyuan 030051，China

Abstract： For traditional defect location must through steps such as image segmentation and defect extraction, identification process is cumbersome and time-consuming, so this paper proposes a automatic detection algorithm for the defects of industrial CT based on block fractal. To begin with, the method deal with the image into blocks and fractal dimension is calculated on each sub-block area. Then, it sets a threshold according to the frequency distribution histogram of fractal dimensions, and marks the edge of the block. Finally, by dealing with the connected region of marked blocks, it is able to locate and mark defects. Through the processing of solid rocket motor model industrial CT images which contain a different number defects, it can accurately locate defects. The experiments indicate that this method is effective and accurate on automatic locate defects of industrial CT image, and has a strong robustness.

Key words : defect location；fractal；industrial CT；block；region connection

0 引言

人們提出了大量的評(píng)價(jià)方法來(lái)預(yù)測(cè)在背景噪聲存在條件下的語(yǔ)音可懂度。在這些方法中，SII（Speech Intelligence Index）是現(xiàn)今最廣泛使用的語(yǔ)音可懂度指數(shù)的方法。SII的評(píng)價(jià)是基于語(yǔ)音的可懂度取決于譜信息比例的思想，譜信息比例是可被聽(tīng)者聽(tīng)到的并通過(guò)頻譜分割成20個(gè)頻帶（同樣適用于可懂度），并估計(jì)每個(gè)頻帶的信號(hào)噪聲比（SNR）加權(quán)平均值。每一個(gè)頻帶中的信噪比由頻帶重要性函數(shù)加權(quán)，該函數(shù)根據(jù)語(yǔ)料的不同而不同^[1]。SII方法能夠成功預(yù)測(cè)出線性濾波和加性噪聲對(duì)語(yǔ)音可懂度的影響^[2，3]。然而，還是有許多局限的。其中一個(gè)局限是，SII不能應(yīng)用于語(yǔ)音嵌入在波動(dòng)掩蔽的情況下。一些人已經(jīng)試圖拓展SII方法來(lái)評(píng)估在波動(dòng)掩蔽條件下的語(yǔ)音可懂度。例如，Rhebergen提出將語(yǔ)音和掩蔽信號(hào)分割成短幀（9～20 ms），估計(jì)每一幀中的瞬時(shí)AI（Articulation Index）值以及平均所有幀計(jì)算后的AI值來(lái)產(chǎn)生單一的AI矩陣。拓展后的短期AI方法被認(rèn)為在估計(jì)嵌入在人工掩蔽信號(hào)（比如周期干擾噪聲）和類(lèi)語(yǔ)音掩蔽信號(hào)中的句子時(shí)能夠比傳統(tǒng)的AI方法更好地預(yù)測(cè)語(yǔ)音可懂度，但是，后者在預(yù)測(cè)方面是不夠準(zhǔn)確的^[4]。

MA J、HU Y和LOIZOU P C等學(xué)者提出用清晰語(yǔ)音作為權(quán)值來(lái)代替SII算法中的ANSI經(jīng)驗(yàn)權(quán)值，可懂度有所提高^[5]。所有這些改進(jìn)都是針對(duì)于頻域進(jìn)行的，并沒(méi)有考慮在時(shí)域?qū)π盘?hào)進(jìn)行選擇。然而不同的語(yǔ)音段對(duì)可懂度的貢獻(xiàn)有所不同，如濁音段比清音段或無(wú)聲段對(duì)可懂度的影響要大，這一點(diǎn)也和平時(shí)的經(jīng)驗(yàn)相一致。比如在聽(tīng)一句話時(shí)，有時(shí)雖然不能完全聽(tīng)清晰所有的詞，但只要能聽(tīng)清楚關(guān)鍵的詞，就能通過(guò)聯(lián)想猜出整個(gè)句子的含義。而如果沒(méi)有聽(tīng)清楚關(guān)鍵詞，即使其他部分能夠聽(tīng)清楚，也無(wú)法猜出整個(gè)句子的含義。研究表明濁音段，尤其是音節(jié)的起始部分對(duì)可懂度的影響最大^[6]，根據(jù)這一思想，本研究提出在時(shí)域選取語(yǔ)音的起始段，然后再對(duì)選出的語(yǔ)音段進(jìn)行SII分析。

1 實(shí)驗(yàn)方法及數(shù)據(jù)

可懂度評(píng)價(jià)算法使用的是HU Y和LOIZOU P C通過(guò)8種不同的噪聲抑制算法處理的語(yǔ)音信號(hào)^[7]，下面簡(jiǎn)要介紹這些語(yǔ)料及增強(qiáng)處理算法。

1.1 語(yǔ)料和主觀評(píng)價(jià)

IEEE的句子和輔音在/aCa/格式中被用于測(cè)試材料。輔音測(cè)試包含16個(gè)記錄在/aCa/目錄中的輔音，其中C=/p，t，k，b，d，g，m，n，dh，l，f，v，s，z，sh，dj/。女性講話者產(chǎn)生的全部輔音和男性講話者產(chǎn)生的所有句子，句子和輔音原始采樣為25 kHz，下采樣到8 kHz。從LOIZOU P C的書(shū)中可以得到這些記錄。掩蔽被人工加到了語(yǔ)音材料中。掩蔽信號(hào)來(lái)自于AURORA數(shù)據(jù)庫(kù)^[8]，并且包括了不同地方的真實(shí)錄音：餐廳、汽車(chē)、街道和火車(chē)。掩蔽是添加在信噪比是0和5 dB的語(yǔ)音信號(hào)中的。

1.2 去噪算法

8種不同的去噪算法用來(lái)處理受到噪聲干擾的句子，其中包括：廣義子空間的算法、以感知為基礎(chǔ)的子空間算法、最小均方誤差對(duì)數(shù)算法、關(guān)于語(yǔ)音存在的不確定性的最小均方誤差對(duì)數(shù)算法、基于降低延遲卷積譜減法算法、多頻帶譜減法、基于小波閾值多窗口譜的維納濾波算法以及傳統(tǒng)的維納濾波算法。除了關(guān)于語(yǔ)音存在的不確定性的最小均方誤差對(duì)數(shù)算法，其他所有的算法都是基于自身的實(shí)現(xiàn)。這些算法實(shí)現(xiàn)所使用的參數(shù)與公布的是相同的。當(dāng)前測(cè)試研究的所有噪聲算法的MATLAB實(shí)現(xiàn)也由LOIZOU P C完成了。

1.3 實(shí)驗(yàn)流程

總共有40個(gè)當(dāng)?shù)氐拿勒Z(yǔ)講話者被招募用于句子可懂度的測(cè)試，這40個(gè)聽(tīng)者被分成4個(gè)小組（每個(gè)噪聲型為一組），每個(gè)小組有10名聽(tīng)者。每位受試者共參加了19項(xiàng)聽(tīng)力條件（=2個(gè)信噪比等級(jí)×8個(gè)算法+2個(gè)帶噪?yún)⒖?1個(gè)安靜）。2個(gè)IEEE的句子列表（每個(gè)列表有10個(gè)句子）被用于每一個(gè)條件中。句子列表都是不重復(fù)的。另有10名聽(tīng)者加入輔音識(shí)別任務(wù)。被試者按照隨機(jī)順序每個(gè)輔音重復(fù)6次。處理后的語(yǔ)音文件（句子/輔音）以及清晰和帶噪語(yǔ)音文件以單耳的形式呈現(xiàn)給聽(tīng)者。

HU Y和LOIZOU P C研究的可懂度產(chǎn)生了總共72種帶噪環(huán)境，其中包括噪聲干擾（未處理）環(huán)境^[9]。這72種環(huán)境包括了8種不同噪聲抑制算法在2種信噪比等級(jí)（0和5 dB）在4種類(lèi)型的真實(shí)環(huán)境（餐廳、汽車(chē)、街道和火車(chē)）中引起的失真。在這72種條件下得到的可懂度得分在當(dāng)前的研究中被用于評(píng)估大量之前的和新提出的客觀評(píng)價(jià)的可預(yù)測(cè)功率。

2 語(yǔ)音起始段檢測(cè)方法

語(yǔ)音信號(hào)隨時(shí)間變化的頻譜特性可以用語(yǔ)譜圖直觀地表示。語(yǔ)譜圖的縱軸對(duì)應(yīng)于頻率，橫軸對(duì)應(yīng)于時(shí)間，而圖像的黑白度對(duì)應(yīng)于信號(hào)的能量。所以，聲道的諧振頻率在圖上就表示成為黑帶，濁音部分則以出現(xiàn)條紋圖形為其特征，這是因?yàn)榇藭r(shí)的時(shí)域波形有周期性，而在濁音的時(shí)間間隔內(nèi)圖形顯得很致密^[10]。圖1為“A gold ring will please most any girl”語(yǔ)音的語(yǔ)譜圖。

如果有必要，語(yǔ)音信號(hào)首先要重新采樣。重新采樣出來(lái)的信號(hào)要經(jīng)過(guò)一個(gè)等響度濾波的處理，之后要使用一個(gè)二階的butterworth濾波器[6]的信道進(jìn)行濾波得出信道信號(hào)。

圖2中上圖是包絡(luò)圖，下圖是起始段速率圖。包絡(luò)圖中的包絡(luò)是通過(guò)對(duì)信道信號(hào)的全波整流得到的。起始段速率是用來(lái)計(jì)算全頻帶信道的，而它是由包絡(luò)速率的半波整流得到的，其中，包絡(luò)速率是計(jì)算包絡(luò)的第一次差值。圖2中是測(cè)試語(yǔ)音的一部分，上圖表現(xiàn)的是語(yǔ)音句子的一部分（A gold ring）包絡(luò)，下圖給出的是對(duì)應(yīng)的起始段。豎線是人工標(biāo)記出來(lái)的音節(jié)邊界。

每一個(gè)起始段都有3個(gè)重要的位置，即起始段開(kāi)始(onset start)、起始段峰(onset peak)、起始段結(jié)束(onset end)，如圖2(b)所示。起始段開(kāi)始被定義為起始段速率首次大于0時(shí)的采樣指數(shù)，它對(duì)應(yīng)著原包絡(luò)從谷值到開(kāi)始的轉(zhuǎn)折點(diǎn)，并被認(rèn)為是候選音節(jié)邊界位置。相反，起始段結(jié)束定義為起始段速率最終跌回到0的采樣指數(shù)，它對(duì)應(yīng)于原包絡(luò)的峰值且是一個(gè)候選音節(jié)核位置。最后，起始段峰是起始段速率達(dá)到其最大值的采樣指數(shù)。

3 基于語(yǔ)音起始段檢測(cè)語(yǔ)音可懂度客觀評(píng)價(jià)算法

時(shí)域分段信噪比（SNRseg）算法^[11]在Hansen和Pellom的文章中提到，且計(jì)算公式如下：

４實(shí)驗(yàn)結(jié)果

有兩個(gè)數(shù)被應(yīng)用于在預(yù)測(cè)語(yǔ)音可懂度中估計(jì)上述客觀評(píng)價(jià)的表現(xiàn)^[9]。第一個(gè)數(shù)是Pearson相關(guān)系數(shù)r，第二個(gè)是誤差的標(biāo)準(zhǔn)差估計(jì)值，計(jì)算公式為其中σ_d是給出的條件的語(yǔ)音識(shí)別得分的標(biāo)準(zhǔn)差，σ_e是計(jì)算誤差的標(biāo)準(zhǔn)差。較小的σ_e值表明客觀評(píng)價(jià)在預(yù)測(cè)語(yǔ)音可懂度方面是較好的。

對(duì)正常聽(tīng)力的試聽(tīng)者在72種不同噪聲環(huán)境下得到的平均可懂度得分進(jìn)行相關(guān)分析，這些分析是客觀評(píng)價(jià)得到的相關(guān)平均值。包括噪聲抑制語(yǔ)音的這些條件最初受到了4種不同的掩蔽信號(hào)（餐廳、汽車(chē)、街道和火車(chē)）的干擾。計(jì)算的相關(guān)系數(shù)（預(yù)測(cè)誤差）位于表1中。

從表1中能夠看出，對(duì)于分段信噪比（SNRseg）^[11]，輔音和句子的Pearson系數(shù)分別為0.40和0.46；而對(duì)于使用了語(yǔ)音起始段檢測(cè)方法的分段信噪比(SNRseg_onset)，輔音和句子的Pearson系數(shù)分別為0.51和0.52。接下來(lái)對(duì)于4種的不同掩蔽來(lái)觀察其相關(guān)系數(shù)，位于表2中。

表2給出的分別是分段信噪比（SNRseg）和語(yǔ)音起始段檢測(cè)分段信噪比（SNRseg_onset）的4種不同掩蔽信號(hào)(餐廳、汽車(chē)、街道和火車(chē))的相關(guān)系數(shù)。從表2中能夠看出，對(duì)于輔音aCa，語(yǔ)音起始段分段信噪比算法(SNRseg_onset)相對(duì)于分段信噪比算法(SNRseg)的Pearson相關(guān)系數(shù)都有所提高。而對(duì)于句子Sen，大體都是所提高的，只有在火車(chē)噪聲掩蔽下，相關(guān)系數(shù)是有所下降的?？偟膩?lái)說(shuō)，由表1和表2中可以觀察到，語(yǔ)音起始段檢測(cè)分段信噪比算法(SNRseg_onset)的相關(guān)系數(shù)確實(shí)是提高了很多的。這就說(shuō)明語(yǔ)音起始段檢測(cè)方法用于SNR評(píng)價(jià)算法是有較好的表現(xiàn)的，也充分說(shuō)明語(yǔ)音起始段(speech onset)對(duì)于SNR評(píng)價(jià)算法確實(shí)是有正面的影響的。

5 結(jié)論

當(dāng)前的研究是在真實(shí)噪聲條件下評(píng)價(jià)就預(yù)測(cè)語(yǔ)音可懂度而言傳統(tǒng)的客觀評(píng)價(jià)算法(SNRseg)和新的客觀評(píng)價(jià)算法(SNRseg_onset)的表現(xiàn)。這些客觀評(píng)價(jià)算法在總共72個(gè)噪聲條件下進(jìn)行測(cè)試，這些噪聲條件包括在真實(shí)世界的噪聲類(lèi)型（汽車(chē)、餐廳、火車(chē)和街道噪聲）干擾下的處理過(guò)的句子和無(wú)意義的音節(jié)。傳統(tǒng)的SNR評(píng)價(jià)算法的表現(xiàn)是不夠好的(輔音r=0.40，句子r=0.46)，而當(dāng)結(jié)合了本文提出的語(yǔ)音起始段檢測(cè)算法的SNR，即SNRseg_onset評(píng)價(jià)算法，其在預(yù)測(cè)語(yǔ)音可懂度方面有較好的表現(xiàn)(輔音r=0.51，句子r=0.52)。同時(shí)也說(shuō)明語(yǔ)音起始段(speech onset)對(duì)于SNR評(píng)價(jià)算法確實(shí)是有好的影響的，表明結(jié)合語(yǔ)音起始段(speech onset)檢測(cè)算法能夠提高客觀評(píng)價(jià)算法的性能。

參考文獻(xiàn)

[1] HALL S M，ISAACSON J J，BURHANS C G，et al.New editions of ANSI standards for warnings[C].9th Annual IEEE Product Safety Engineering Society′s Symposium on Product Compliance Engineering，ISPCE 2012，Portland，2012：1-4.

[2] LOIZOU P C，Ma Jianfen.Extending the articulation index to account for non-linear distortions introduced by noisesuppression algorithms[J].Journal of the Acoustical Society of America，2011，130(2)：986-995.

[3] KRYTER K D.(1962b).Validation of the articulation index[J].Journal of the Acoustical Society of America，1962(34)：1698-1706.

[4] RHEBERGEN K S，VERSFELD N J.A speech intelligibility index-based approach to predict the speech reception threshold for sentences influctuating noise for normalhearing listeners[J].Journal of the Acoustical Society of America，2005(117)：2181-2192.

[5] MA J，HU Y，LOIZOU P C.Objective measures for pre dicting speech intelligibility in noisy conditions based on new band-importance functions[J].Journal of the Acoustical Society of America，2009，125(5)：3387-3405.

[6] VILLING R，TIMONEY J，WARD T，et al.Automatic blind syllable segmentation for continuous speech[C].Irish Signals and Systems Conference，Belfast，2004.

[7] HU Y，LOIZOU P C.A comparative intelligibility study of single-microphone noise reduction algorithms[J].Journal of the Acoustical Society of America，2007，122(3)：1777-1786.

[8] DO C T，PASTOR D，GOALIC A.A novel framework for noise robust ASR using cochlear implant-like spectrally reduced speech[J].Speech Communication，2012，54(1)：119-133.

[9] HU Y，LOIZOU P C.Evaluation of objective quality measures for speech enhancement[J].IEEE Trans.Audio，Speech，Lang.Process，2008(16)：229-238.

[10] 張雪英.數(shù)字語(yǔ)音處理及MATLAB仿真[M].北京：電子工業(yè)出版社，2010：19.

[11] KOBAYASHI Y，KONDO K.Speech intelligibility estimation using support vector regression and critical band segmental SNR in noisy condition[J].IEEJ Transactions on Electronics，Information and Systems，2013，133(8)：1556-1564.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容