第三章 語音信號特征分析
語音合成音質的好壞,語音識別率的高低,都取決于對語音信號分析的準確度和精度。例如,利用線性預測分析來進行語音合成,其先決條件是要用線性預測方法分析語音庫,如果線性預測分析獲得的語音參數較好,則用此參數和成的語音音質就較好。例如,利用帶通濾波器組法來進行語音識別,其先決條件是要弄清楚語音共振峰的幅值,個數,頻率范圍及其分布情況。
語音信號特征的分析可以分為時域,頻域和倒譜域。
時域分析簡單直觀,清晰易懂,物理意義明確。
更多有效的分析是圍繞頻域進行的,因為語音中最重要的感知特性反應在其功率譜中,其相位變化只起著很小的作用。
常用頻域分析有帶通濾波器組,傅里葉變換法和線性預測分析法。頻譜具有很明顯的聲學特性,利用頻域分析獲得的特征具有實際的物理意義,如共振峰參數,基音參數周期等。
倒譜域是對對數功率譜進行傅里葉反變換得到的,可以將聲道特性和激勵特性有效的分開,更好的揭示語音信號的本質特征。
可以將語音信號分析分為模型分析法和非模型分析法兩種。模型分析法是指依據語音信號產生的數學模型,來分析和提取表征這些模型的特征參數;共振峰模型分析法和線性預測都術語這種方法。凡不進行模型化分析的其他方法都屬于非模型分析法,包括上面提到的時域分析法,頻域分析法及同態分析法。
貫穿語音信號分析全過程的是“短時分析技術”。短時間內特性基本保持不變,相對穩定,準穩態過程。10~30ms內保持相對平穩。
語音信號數字化
語音信號的采樣和量化
實際信號常有一些低能量的信號分量超過采樣頻率的一半,如濁音的頻譜超過4khz的分量至少比峰值低40db,而清音,超過8khz,頻率分量也沒有顯著下降,因此語音信號所占的頻率范圍可以達到10khz以上,但對語音清晰度的有明顯影響部分的最高頻率為5.7kHZ左右。
電話系統為8kHZ,而時間中,采樣頻率為8-10kHZ,而語音合成或者語音識別,獲得更高的質量,采樣頻率一般為15——20kHZ。
在一般的識別系統中,采樣率最高為16kHZ,當繼續增加采樣率是,識別率幾乎沒有增加。
量化:有三種方式,零記憶量化,分組量化和序列量化。
短時加窗處理
假設語音信號在10~30ms內是平穩的,后面所有的分析都是在這個假設下進行的。
為了得到短時的語音信號,要對語音信號進行加窗的操作,窗函數平滑的在語音信號上滑動,將語音信號分成幀。分幀可以連續,也可以采用交疊分段,交疊部分稱為幀移,一般為窗長的一般。
加窗時,不同窗口將影響到語音信號分析的結果
-
窗函數的形式
- 矩形窗
- 漢明窗(hamming窗)
這些窗函數的頻率響應都有低通特性,但不同窗口形狀將影響分幀后的短時特征的特性。漢明窗的第一個零值頻率位置要比矩形窗大一倍左右,即漢明窗的主瓣帶寬大約是同樣寬度矩形窗帶寬的兩倍。但是在通帶內,漢明窗的衰減對應比矩形窗大得多。
矩形窗平滑性較好,但波形細節丟失,并且會產生泄露現象,而漢明窗可以有效克服泄露現象,應用范圍最為廣泛。
窗函數長度
? 窗的長度對能否反映語音信號的幅度變化起決定性作用。如果N特別大,即等于幾個基因周期量級,則窗函數等效于很窄的低通濾波器,此時信號短時信息將緩慢的變化,因而不能充分反映波形變化的細節。如果N特別小,即等于或小于一個基因周期的量級,則信號的能量將按照信號波形的細微狀況而很快的啟發,但如果N太小,濾波器的通帶變寬,則不能獲得平滑的短時信息,因此窗口的長度要選擇合適。窗的衰減基本與窗的持續時間無關,因此當改變寬度N時,會使帶寬發生變化。
窗口長度是相對于語音信號的汲引周期而言,通常認為一個語音幀內,應含有1~7個基音周期,然而不同人的基音周期變化范圍很大,基音周期的持續時間會從高音的約20個采樣點變化到低音調250個采樣點,這意味著可能需要多個不同的N值,所以N的選擇比較困難,通常在采樣頻率10kHZ的情況,N選擇100~200量級(10~20ms)持續時間是比較合適的。
時域分析
- 能量
- 過零率
- 自相關函數
- 平均幅度差函數
端點檢測和語音分割
有聲(V)無聲(S)清音(U)判決。
能夠實現這些判決的依據再于,不同性質的語音各種短時參數具有不同的概率密度函數,以及相鄰的若干幀具有一致的語音特性,不會再S , U, V之間快速變化。
每個語音的輸入起點和重點,利用短時平均幅度參數M和短時過零率可以做到這一點。
濁音情況下短時平均幅度參數的概率密度函數P(M|V)確定一個閾值參數M_H.根據M_H可以確定前后兩個點A_1和A_2 后肯定是語音段,但精確起點,還要仔細查找。
為此,再設定一個較低的閾值參數M_L, 然后確定B_1 和 B_2, 從這兩個點之后用短時過零率搜索。 清音的過零率高于無聲段,但是能量低。
但是在研究結果中表明,利用短時平均過零率區分無聲和清音在有些情況下不是很可靠,由于清音的強度會比無聲段高一下,將門限提高一些對清音的影響不大,但在沒有背景噪聲的情況下,無聲段將不會穿越這一提高的電平,因為可以正確區分清音和無聲段。
因此采用這種過零率,具有抗干擾能力
語音信號的頻域分析
濾波器組的方法
濾波器可以是寬帶帶通濾波器,具有平攤的特性,粗略求語音的頻譜,頻率分辨率低,可以是窄帶濾波器,頻率分辨率較高。
現在一般都在用數字濾波器,其中如何將模擬濾波器數字化,涉及到零點極點的內容,需要參考DSP的內容。極點波峰,零點波谷。
傅里葉頻譜
為窗口函數。
兩種方式來理解物理意義
- 當n固定時,如
,
是將窗函數的起點移至
處截取信號做傅里葉變換
- 當頻率固定是,例如
,
可以看做是信號經過一個中心頻率為
的帶通濾波器產生的輸出。 這是因為窗口函數
通常具有低通特性,而指數
對語音信號具有調制作用,使頻譜產生移位, 將
對應于
的頻率分量移到零頻。
在實際計算時,一般用離散傅里葉變換代替連續傅里葉變換,則需要對信號進行周期延拓。(非周期->連續譜,周期->離散譜),這時候得到的是功率譜。 如果窗長度為, 那么
的長度為
, 如果對
以
進行周期拓展,則自相關就會出現混疊現象,即這個周期的循環相關函數在一個周期中的值就與線性相關
的值不同,這樣得到的功率譜就是一組前采樣,若想得到全部的
個值,可以補充L個零,擴展成2L的信號,并做離散傅里葉變換,這時的循環相關與現行相關是等價的。(后面這句話對我來說暫時是天書)
在對窗函數的分析中,我們知道對于任何一個窗函數都存在旁瓣效應,這時候有諧波效應。
語譜圖的時間分辨率和頻率分辨率是由所采用的窗函數決定的。假設時間固定,對信號乘以窗函數相當于在頻域用窗函數的頻率響應與信號頻譜的卷積。如果窗函數的頻率響應的通帶寬度為
,那么語譜圖中的頻率分辨率的寬度即為
。即卷積的作用將使任何兩個相隔間隔頻率小于
的譜峰合并為一個單峰。對于窗函數而言,通帶寬度與窗長成反比,如果希望頻率分辨率高,則窗長應該盡量長一些。
對于時間分辨率,假設頻率固定,相當于對時間序列做低通濾波,輸出信號的帶寬就是
的帶寬b,根據采樣定理,只需要以
的采樣率就可以反映出信號的所有頻率成分,這時候所具有的時間分辨率的寬度為
. 因此如果希望時間分辨率高,則窗長應該短一些。因此時間分辨率和頻率分辨率是相互矛盾的,這也是短時傅里葉變換本身固有的缺點。
點評:
- 盡管上面??的解釋像天書,而且也是長久的困擾著的知其然但從來沒推導過理論證明的時間分辨率和頻率分辨率的道理。
- 短時處理是理解語音的一個難點。其中時域相乘為頻率卷積,要理解體會這個公式。
- 對于非周期信號,頻譜是連續的,所以要進行周期延拓,此時選用了
的長度,這點要細細推導
- 現在就先這樣囫圇吞棗吧……...
1.26新增理解:
- 關于窗函數的通帶b和N有關,比如矩形窗
,
越大,則b越小,時間分辨寬度為
, 時間分辨率減小,反之頻率分辨率變小。
- 分辨率的定義:對信號所能做出辨別的時域或者頻域的最小間隔。對于時域瞬變得信號,希望時域的分辨率要高,即時域的觀察間隔短,保證能觀察到該瞬變信號發生的時刻即形態。對頻域具有兩個或者多個
傳統傅里葉變換及時頻分析的思想
傳統傅里葉變換時間分辨率為0,只適合分析信號組成分量不隨時間變化的聘問分量,純頻域分析。
傳統傅里葉變換基于信號平穩的假設,但是在實際場合中,信號是不平穩的,而且時變。
-
傳統傅里葉變換在全頻域范圍內分辨率相同。
因為一個信號的頻率和它的周期成反比,所以在應用中,一個合理的要求是,高頻信息,時間長度較短,給出精確的高頻成分,而對于待分析信號的低頻信息,時間長度較長,給出一個周期內完整的信息。 在中心頻率高的地方沒時間窗自動變窄,在中心頻率低的地方,時間窗變寬,然而傅里葉變換是一種整體的變換,在整體上將信號分解為不同的頻率分量,對信號的表征要么在時域,要么在頻域,作為頻域表示的功率譜,并不能反應出某種頻率分量出現在什么時候及其變化情況。傅里葉變換對信號的局部畸變沒有標定和度量的能力。在實際應用中,畸變是我們所關心的信號再局部范圍內的特征,比如音樂和語音信號。
為了分析和處理非平穩信號,將傅里葉變換進行推廣,聯合時頻分析就是一種重要方法。著眼于真是信號組成成分的時變譜特征,設計時間和頻率的聯合函數,描述信號再不同時間和頻率的能量密度和強度。
線性時頻時頻表示
這類線性主要有短時傅里葉變換與Gabor變換和小波變換,其中STFT和Gabor變換是一種加窗的傅里葉變換,使用固定大小的時頻網格,時頻網格在時頻變換只限于時間平移和頻率平移,窗函數固定的,只適用于分析帶寬固定的非平穩信號,實際應用中,希望對低頻分析,頻率分辨率高,高頻時間分辨率高,要求窗函數寬度能隨之頻率變化而變化。小波分析的視頻分析網格變化除了時間平移外,還有時間和頻率軸比例尺度的改變。適用于分析具有固定比例帶寬的非平穩信號。
二次時頻表示
這類時頻由能量譜或功率譜演化而來,其特點是變換為二次的。雙線性關系可以表示為
其中為能量譜,而
表示取共軛操作。
點評:好像沒見過,先跳過。。。。。
不確定原理
在信號分析與信號處理中,信號的“時間中心”及“時間寬度”以及頻率中心與頻率寬度是非常重要的概念,分別說明信號在時域和頻域中心位置在兩個域的擴展情況。
信號再這兩個物理量的測量上有一個重要的約束原則,就是著名的“不確定性原理”。它的意義是,信號波形在頻率軸上的擴張和時間軸上的擴張不可能同時小于某一界限,即若函數和
構成一堆傅里葉變換,則不可能同時是短寬度的,即
等號成立的充分必要條件是為高斯函數,即
. 證明,用Cauchy-Schwarts不等式可得。
Gabor變換
窗函數為高斯函數的短時傅里葉變換稱為Gabor變換。
高斯函數的傅里葉變換仍然為高斯函數,這想防御傅里葉反變換也是用高斯函數加窗的,同時體現了頻域的局部化。
gabor變換的定義
是大于0的固定常數。由于
, 因此
. 這表明,信號
的gabor 變換
是對任何
在時間
附近對
傅里葉變換的局部化(在說什么??),達到了對
的精確分解。
Gabor變換是具有最小時頻窗的短時傅里葉變換。但進一步研究發現,這兩種變換都沒有離散的正交基, 所以沒有像離散傅里葉變換FFT那種快速算法。而且窗函數固定不變,不能隨著所分析信號的成分是高頻還是低頻做相應的變化。所以這時候有小波變換,能夠自動調節窗口長度。
小波變換
小波理論采用多分辨率的分析的思想,非均勻地劃分時頻空間,為非平穩信號的分析提供了新途徑。
定義: 小波是函數空間中滿足下述條件的一個函數或者信號
其中 表示全體非零實數,
為
的頻域表示形式。
稱為小波母函數。對于任意實數對,稱如下形式的函數為右小波母函數生成的依賴于參數(a,b)的連續小波函數,稱為小波,其中a必須為非零實數。
的作用是把基本小波
做伸縮,
的作用是確定對
分析的時間位置,也即是實踐中心。
在
的附近存在明顯的波動,而且波動范圍的大小完全依賴于尺度因子
的變化。
時,一致,
時,范圍比原來小波函數
范圍大些,小波的波形變得矮寬,變化越來越緩慢,當
時,
在
附近波動范圍藥效,小波波形尖銳而消瘦。
給定平方可積的信號,即
, 則
的小波變換定義為
與傅里葉變換不同,小波變換是一個二元函數。另外,因為母函數只在原點附近才會有明顯偏離水平軸的移動,遠離原點,迅速衰減為0.
假設小波函數 及傅里葉變換
都滿足窗口函數的要求,他們的窗口中心和半徑分別記為
和
和
和
, 可以證明對于任意任意參數對,連續小波變換和其傅里葉變換都滿足窗口函數的要求,他們的窗口中心和寬度分別為
則時頻窗是平面一個可變的矩形,面積為. 這個面積只與小波的母函數
有關,與
無關,但形狀隨著a變換。
小波分析的特點
恒Q性質, Q為母小波
的平直因數,定義
不論a為何值,始終與保持相同的品質因素。
-
與傅里葉變換的不同
- 傅里葉變換的基本函數只有
,具有唯一性,小波分析用的函數不唯一,同一個問題用不同小波分析相差很遠。
- 在頻域里,FT具有較好的局部化能力,特別是頻率成分簡單的信號,可以表示成疊加的形式。但在時域中,沒有局部化的能力,無法從信號的FT中看出原信號在任一時間點附近的形態。
- 對短時FT來說,帶寬與中心頻率無關,但是對小波變換來說,帶寬正比于中心頻率。
- 傅里葉變換的基本函數只有
小波變換在語音處理中的應用
-
利用小波變換對聽覺系統的模擬
聽覺系統大致分為三個階段: 耳蝸濾波器,毛細胞完成機械振動到點激勵的轉換,側抑制網絡完成聲學譜的縮減(另一種第一次看到的解釋)。對聲音信號的分析主要是在基底膜上完成。
人耳的分辨率是非線性的,用傳統的信號處理方法,比如傅里葉是比較難得。利用單純的小波變換對信號處理進行處理時,是將整個頻帶二分,然后保留高頻部分,對低頻部分繼續二分,這與臨界頻帶劃分差別較大,這時候可以采用廣義的小波變換,即吧小波變換與小波包變換結合使用,小波包算法有靈活的時頻分析能力。 當頻帶寬為4kHz時,子帶最小寬度為125Hz,接近最小的臨界頻帶帶寬。
隨機噪聲的去除
-
清音和濁音的判斷
- 語音信號小波系數的低頻部分描述了信號的輪廓,相當于信號經過低通濾波器的結果,高頻部分描述信號的細節,相當于信號經過高通濾波器的結果。根據語音信號短時平穩的特點,對語音信號分幀進行小波變化嗎,計算每個頻帶的平均能量。如果 小波與最高頻帶能量比其他頻帶能量大 且最低頻帶能量和最高頻帶能量比小于0.9,則這段信號為清音。
語音信號的同態解卷積(Homographic analysis)
如果按照線性模型理論,語音信號是由激勵信號和聲道響應卷積產生。解卷就是將各卷積分量分開。解卷算法分為兩大類,一類稱為“參數解卷”,即線性預測分析,另一類算法稱為“非參數解卷”,即同態解卷積,對語音信號進行同態分析后,將得到語音信號的倒譜參數,此時同態分析也稱為倒譜分析或者同態處理。
同態處理是一種較好的解卷積方法,它可以較好的將語音信號中的激勵信號和聲道響應分離,并且只需要用十幾個倒譜系數就能相當好的描述語音信號的聲道特性,因此占很重要的位置。
同態信號處理的基本原理
通常的加性信號可以用線性系統處理,滿足線性疊加原理。然后很多信號是由乘性信號或者卷積信號組合的信號。這樣的信號不能用線性系統處理,得用非線性系統處理。但是非線性系統分析起來困難,同態語音辛哈就是將非線性問題轉換為線性問題處理。語音信號可以看做是聲門激勵信號與聲道響應的卷積結果,所以下面僅討論卷積同態信號的處理問題。
同態語音信號處理的一個通用的系統如圖3-23所示,其符號 表示由卷積組合規則組合起來的空間,即該系統的輸入和輸出都是卷積性信號。同態系統的一個最主要理論結果是同態系統理論分解,分解的目的是用兩個特征系統和一個線性系統來代替非線性的同態系統。分解的情形如下面所示。
分別對應聲門激勵信號(excitation 和 vocal tract),特征信號
是將卷積信號轉化為加性信號,這時候進行Z變換,將卷積信號轉化為乘積信號(疑問1),這時候得到的就是頻譜,然后通過對數運算,變成加性信號,但是這個時候是對數頻譜,使用不便。最后再變換回時域信號。
是在倒譜域對信號處理,常見處理方式是將語音聲源信號與聲道信號分離。 在倒譜域,總可以找到一個
,當
時,聲道濾波器的倒譜為0,當
時,激勵的倒譜接近于0.
如果想再恢復語音信號,用d所示的逆特征系統運算即可。
語音信號的復倒譜
-
聲門激勵信號
發清音是,聲門激勵是能量較小,頻譜均勻分布的白噪聲。發濁音時,聲門激勵是以汲引周期為周期的沖擊序列。
省略公式推導,可以得出以下結論
- 一個周期沖激有限長度序列,倒譜也是一個周期沖擊序列,且周期長度
不變,知識長度變成無限長度
- 周期沖擊序列倒譜的振幅隨著
值的增大而衰減,并且衰減速度比原序列要快。
這對語音信號的分析很有用,這意味著除了原點外,可以采用“高時窗”來從語音信號的倒譜中提取濁音信號的倒譜,從而使得用倒譜法提取基因周期成為現實。聲門激勵源在濁音時,其倒譜只在
諸點上不等于0,其他店均為0.即神門激勵在濁音是,倒譜序列的第一個非零點與原點的距離正好為基音周期
, 在清音的情況下,聲門激勵源具有噪聲特性,沒有明顯的峰點,分布范圍很寬,從低時域延伸到高時域,利用這個可以進行清音和濁音的判斷。
- 一個周期沖激有限長度序列,倒譜也是一個周期沖擊序列,且周期長度
-
聲道沖擊響應的倒譜
省略公式
實際上,聲道的特性取決于零極點分布,從聲道響應的倒譜可知,當
的零極點模值不接近于1時,
(n)將隨著
的增大而迅速遞減。當采樣頻率為10kHZ時,
在間隔[-25,25]之外的值相當小,只分布在這一范圍內。
基于聽覺特性的Mel倒譜系數
MFCC (Mel Frequency cepstrum coefficient),MFCC是將人耳的聽覺感知特性和語音產生機制相結合,因此目前大多數語音識別系統廣泛使用這種特征。
耳蝸的濾波作用是在對數頻率尺度進行的,在1000Hz以下為線性,在1000Hz以上為對數,這就使得人耳對低頻比高頻更敏感
對頻率軸不均勻劃分是MFCC特征區別于前面普通倒譜特征的最重要的特點,變換到Mel域后,Mel帶通濾波器組的中心頻率是按照Mel刻度均勻排列的,實際應用中,MFCC計算過程如下
- 信號分幀,預加重和加漢明窗進行處理,然后進行短時傅里葉變換
- 求出頻譜的平方,即能量譜,用M個Mel帶通濾波器濾波,由于每一個頻帶中的分量的作用在人耳中是疊加的,因此將每個濾波頻帶內能連疊加。
- 將每個濾波器輸出去對數,得到對數功率譜,并進行反離散余弦變換DCT discrete cosine transform,得到L個MFCC系數,一般取12~16個左右。
- 得到MFCC的特征作為靜態特征,將這種靜態特征做一階和二階的差分,得到動態特征。
MFCC有效利用的聽覺特性,因此改變了識別系統的性能,如果倒譜位數增加,對識別性能影響不大。但采用動態特征,誤識率有20%的下降。
點評2019.01.30:第三四次囫圇吞棗的看完MFCC,即使知道了倒譜,但最后按個離散余弦變換還是比較不能聯系上,反正感覺亂亂的吧,包括差分之類的,想被打回哪門語音信號處理課上回爐了,Mark一下,始終有一天會懂其中的深意的。