導航:首頁 > 無線網路 > 語音特徵信號輸入卷積網路

語音特徵信號輸入卷積網路

發布時間:2023-06-02 23:46:41

① 第三章 語音信號特徵分析

語音合成音質的好壞,語音識別率的高低,都取決於對語音信號分析的准確度和精度。例如,利用線性預測分析來進行語音合成,其先決條件是要用線性預測方法分析語音庫,如果線性預測分析獲得的語音參數較好,則用此參數和成的語音音質就較好。例如,利用帶通濾波器組法來進行語音識別,其先決條件是要弄清楚語音共振峰的幅值,個數,頻率范圍及其分布情況。

語音信號特徵的分析可以分為時域,頻域和倒譜域。

時域分析簡單直觀,清晰易懂,物理意義明確。

更多有效的分析是圍繞頻域進行的,因為語音中最重要的感知特性反應在其功率譜中,其相位變化只起著很小的作用。

常用頻域分析有帶通濾波器組,傅里葉變換法和線性預測分析法。頻譜具有很明顯的聲學特性,利用頻域分析獲得的特徵具有實際的物理意義,如共振峰參數,基音參數周期等。

倒譜域是對對數功率譜進行傅里葉反變換得到的,可以將聲道特性和激勵特性有效的分開,更好的揭示語音信號的本質特徵。

可以將語音信號分析分為模型分析法和非模型分析法兩種。模型分析法是指依據語音信號產生的數學模型,來分析和提取表徵這些模型的特徵參數;共振峰模型分析法和線性預測都術語這種方法。凡不進行模型化分析的其他方法都屬於非模型分析法,包括上面提到的時域分析法,頻域分析法及同態分析法。

貫穿語音信號分析全過程的是「短時分析技術」。短時間內特性基本保持不變,相對穩定,准穩態過程。10~30ms內保持相對平穩。

實際信號常有一些低能量的信號分量超過采樣頻率的一半,如濁音的頻譜超過4khz的分量至少比峰值低40db,而清音,超過8khz,頻率分量也沒有顯著下降,因此語音信號所佔的頻率范圍可以達到10khz以上,但對語音清晰度的有明顯影響部分的最高頻率為5.7kHZ左右。

電話系統為8kHZ,而時間中,采樣頻率為8-10kHZ,而語音合成或者語音識別,獲得更高的質量,采樣頻率一般為15——20kHZ。

在一般的識別系統中,采樣率最高為16kHZ,當繼續增加采樣率是,識別率幾乎沒有增加。

量化: 有三種方式,零記憶量化,分組量化和序列量化。

假設語音信號在10~30ms內是平穩的,後面所有的分析都是在這個假設下進行的。

為了得到短時的語音信號,要對語音信號進行加窗的操作,窗函數平滑的在語音信號上滑動,將語音信號分成幀。分幀可以連續,也可以採用交疊分段,交疊部分稱為幀移,一般為窗長的一般。

加窗時,不同窗口將影響到語音信號分析的結果

​ 窗的長度對能否反映語音信號的幅度變化起決定性作用。如果N特別大,即等於幾個基因周期量級,則窗函數等效於很窄的低通濾波器,此時信號短時信息將緩慢的變化,因而不能充分反映波形變化的細節。如果N特別小,即等於或小於一個基因周期的量級,則信號的能量將按照信號波形的細微狀況而很快的啟發,但如果N太小,濾波器的通帶變寬,則不能獲得平滑的短時信息,因此窗口的長度要選擇合適。窗的衰減基本與窗的持續時間無關,因此當改變寬度N時,會使帶寬發生變化。

窗口長度是相對於語音信號的汲引周期而言,通常認為一個語音幀內,應含有1~7個基音周期,然而不同人的基音周期變化范圍很大,基音周期的持續時間會從高音的約20個采樣點變化到低音調250個采樣點,這意味著可能需要多個不同的N值,所以N的選擇比較困難,通常在采樣頻率10kHZ的情況,N選擇100~200量級(10~20ms)持續時間是比較合適的。

有聲(V)無聲(S)清音(U)判決。

能夠實現這些判決的依據再於,不同性質的語音各種短時參數具有不同的概率密度函數,以及相鄰的若干幀具有一致的語音特性,不會再S , U, V之間快速變化。

每個語音的輸入起點和重點,利用短時平均幅度參數M和短時過零率可以做到這一點。

濁音情況下短時平均幅度參數的概率密度函數P(M|V)確定一個閾值參數M_H.根據M_H可以確定前後兩個點A_1和A_2 後肯定是語音段,但精確起點,還要仔細查找。

為此,再設定一個較低的閾值參數M_L, 然後確定B_1 和 B_2, 從這兩個點之後用短時過零率搜索。 清音的過零率高於無聲段,但是能量低。

但是在研究結果中表明,利用短時平均過零率區分無聲和清音在有些情況下不是很可靠,由於清音的強度會比無聲段高一下,將門限提高一些對清音的影響不大,但在沒有背景雜訊的情況下,無聲段將不會穿越這一提高的電平,因為可以正確區分清音和無聲段。

因此採用這種過零率,具有抗干擾能力

濾波器可以是寬頻帶通濾波器,具有平攤的特性,粗略求語音的頻譜,頻率解析度低,可以是窄帶濾波器,頻率解析度較高。

現在一般都在用數字濾波器,其中如何將模擬濾波器數字化,涉及到零點極點的內容,需要參考DSP的內容。極點波峰,零點波谷。

為窗口函數。

兩種方式來理解物理意義

在實際計算時,一般用離散傅里葉變換代替連續傅里葉變換,則需要對信號進行周期延拓。(非周期->連續譜,周期->離散譜),這時候得到的是功率譜 。 如果窗長度為 , 那麼 的長度為 , 如果對 以 進行周期拓展,則自相關就會出現混疊現象,即這個周期的循環相關函數在一個周期中的值就與線性相關 的值不同,這樣得到的功率譜就是一組前采樣,若想得到全部的 個值,可以補充L個零,擴展成2L的信號,並做離散傅里葉變換,這時的循環相關與現行相關是等價的。( 後面這句話對我來說暫時是天書

在對窗函數的分析中,我們知道對於任何一個窗函數都存在旁瓣效應,這時候有諧波效應。

語譜圖的時間解析度和頻率解析度是由所採用的窗函數決定的。假設時間固定,對信號乘以窗函數相當於在頻域用窗函數的頻率響應與信號頻譜的卷積。如果窗函數的頻率響應 的通帶寬度為 ,那麼語譜圖中的頻率解析度的寬度即為 。即卷積的作用將使任何兩個相隔間隔頻率小於 的譜峰合並為一個單峰。對於窗函數而言,通帶寬度與窗長成反比,如果希望頻率解析度高,則窗長應該盡量長一些。

對於時間解析度,假設頻率固定,相當於對時間序列 做低通濾波,輸出信號的帶寬就是 的帶寬b,根據采樣定理,只需要以 的采樣率就可以反映出信號的所有頻率成分,這時候所具有的時間解析度的寬度為 . 因此如果希望時間解析度高,則窗長應該短一些。因此時間解析度和頻率解析度是相互矛盾的,這也是短時傅里葉變換本身固有的缺點。

點評:

1.26新增理解:

這類線性主要有短時傅里葉變換與Gabor變換和小波變換,其中STFT和Gabor變換是一種加窗的傅里葉變換,使用固定大小的時頻網格,時頻網格在時頻變換只限於時間平移和頻率平移,窗函數固定的,只適用於分析帶寬固定的非平穩信號,實際應用中,希望對低頻分析,頻率解析度高,高頻時間解析度高,要求窗函數寬度能隨之頻率變化而變化。小波分析的視頻分析網格變化除了時間平移外,還有時間和頻率軸比例尺度的改變。適用於分析具有固定比例帶寬的非平穩信號。

這類時頻由能量譜或功率譜演化而來,其特點是變換為二次的。雙線性關系可以表示為

其中 為能量譜,而 表示取共軛操作。

點評: 好像沒見過,先跳過。。。。。

在信號分析與信號處理中,信號的「時間中心」及「時間寬度」以及頻率中心與頻率寬度是非常重要的概念,分別說明信號在時域和頻域中心位置在兩個域的擴展情況。

信號再這兩個物理量的測量上有一個重要的約束原則,就是著名的「不確定性原理」。它的意義是,信號波形在頻率軸上的擴張和時間軸上的擴張不可能同時小於某一界限,即若函數 和 構成一堆傅里葉變換,則不可能同時是短寬度的,即

等號成立的充分必要條件是 為高斯函數,即 . 證明,用Cauchy-Schwarts不等式可得。

窗函數為高斯函數的短時傅里葉變換稱為Gabor變換。

是大於0的固定常數。由於 , 因此 . 這表明,信號 的gabor 變換 是對任何 在時間 附近對 傅里葉變換的局部化(在說什麼??),達到了對 的精確分解。

Gabor變換是具有最小時頻窗的短時傅里葉變換。但進一步研究發現,這兩種變換都沒有離散的正交基, 所以沒有像離散傅里葉變換FFT那種快速演算法。而且窗函數固定不變,不能隨著所分析信號的成分是高頻還是低頻做相應的變化。所以這時候有小波變換,能夠自動調節窗口長度。

小波理論採用多解析度的分析的思想,非均勻地劃分時頻空間,為非平穩信號的分析提供了新途徑。

定義: 小波是函數空間 中滿足下述條件的一個函數或者信號

其中 表示全體非零實數, 為 的頻域表示形式。 稱為小波母函數。對於任意實數對,稱如下形式的函數為右小波母函數生成的依賴於參數(a,b)的連續小波函數,稱為小波,其中a必須為非零實數。

的作用是把基本小波 做伸縮, 的作用是確定對 分析的時間位置,也即是實踐中心。 在 的附近存在明顯的波動,而且波動范圍的大小完全依賴於尺度因子 的變化。 時,一致, 時,范圍比原來小波函數 范圍大些,小波的波形變得矮寬,變化越來越緩慢,當 時, 在 附近波動范圍葯效,小波波形尖銳而消瘦。

給定平方可積的信號 ,即 , 則 的小波變換定義為

與傅里葉變換不同,小波變換是一個二元函數。另外,因為母函數 只在原點附近才會有明顯偏離水平軸的移動,遠離原點,迅速衰減為0.

假設小波函數 及傅里葉變換 都滿足窗口函數的要求,他們的窗口中心和半徑分別記為 和 和 和 , 可以證明對於任意任意參數對,連續小波變換和其傅里葉變換都滿足窗口函數的要求,他們的窗口中心和寬度分別為

則時頻窗是平面一個可變的矩形,面積為 . 這個面積只與小波的母函數 有關,與 無關,但形狀隨著a變換。

如果按照線性模型理論,語音信號是由激勵信號和聲道響應卷積產生。解卷就是將各卷積分量分開。解卷演算法分為兩大類,一類稱為「參數解卷」,即線性預測分析,另一類演算法稱為「非參數解卷」,即同態解卷積,對語音信號進行同態分析後,將得到語音信號的倒譜參數,此時同態分析也稱為 倒譜分析或者同態處理。

同態處理是一種較好的解卷積方法,它可以較好的將語音信號中的激勵信號和聲道響應分離,並且只需要用十幾個倒譜系數就能相當好的描述語音信號的聲道特性,因此占很重要的位置。

通常的加性信號可以用線性系統處理,滿足線性疊加原理。然後很多信號是由乘性信號或者卷積信號組合的信號。這樣的信號不能用線性系統處理,得用非線性系統處理。但是非線性系統分析起來困難,同態語音辛哈就是將非線性問題轉換為線性問題處理。語音信號可以看做是聲門激勵信號與聲道響應的卷積結果,所以下面僅討論卷積同態信號的處理問題。

同態語音信號處理的一個通用的系統如圖3-23所示,其符號 表示由卷積組合規則組合起來的空間,即該系統的輸入和輸出都是卷積性信號。同態系統的一個最主要理論結果是同態系統理論分解,分解的目的是用兩個特徵系統和一個線性系統來代替非線性的同態系統。分解的情形如下面所示。

分別對應聲門激勵信號(excitation 和 vocal tract),特徵信號 是將卷積信號轉化為加性信號,這時候進行Z變換,將卷積信號轉化為乘積信號(疑問1),這時候得到的就是頻譜,然後通過對數運算,變成加性信號,但是這個時候是對數頻譜,使用不便。最後再變換回時域信號。

是在倒譜域對信號處理,常見處理方式是將語音聲源信號與聲道信號分離。 在倒譜域,總可以找到一個 ,當 時,聲道濾波器的倒譜為0,當 時,激勵的倒譜接近於0.

如果想再恢復語音信號,用d所示的逆特徵系統運算即可。

MFCC (Mel Frequency cepstrum coefficient),MFCC是將人耳的聽覺感知特性和語音產生機制相結合,因此目前大多數語音識別系統廣泛使用這種特徵。

耳蝸的濾波作用是在對數頻率尺度進行的,在1000Hz以下為線性,在1000Hz以上為對數,這就使得人耳對低頻比高頻更敏感

對頻率軸不均勻劃分是MFCC特徵區別於前面普通倒譜特徵的最重要的特點,變換到Mel域後,Mel帶通濾波器組的中心頻率是按照Mel刻度均勻排列的,實際應用中,MFCC計算過程如下

MFCC有效利用的聽覺特性,因此改變了識別系統的性能,如果倒譜位數增加,對識別性能影響不大。但採用動態特徵,誤識率有20%的下降。

點評2019.01.30:第三四次囫圇吞棗的看完MFCC,即使知道了倒譜,但最後按個離散餘弦變換還是比較不能聯繫上,反正感覺亂亂的吧,包括差分之類的,想被打回哪門語音信號處理課上回爐了,Mark一下,始終有一天會懂其中的深意的。

② 卷積神經網路

關於花書中卷積網路的筆記記錄於 https://www.jianshu.com/p/5a3c90ea0807 。

卷積神經網路(Convolutional Neural Network,CNN或ConvNet)是一種具有 局部連接、權重共享 等特性的深層前饋神經網路。卷積神經網路是受生物學上感受野的機制而提出。 感受野(Receptive Field) 主要是指聽覺、視覺等神經系統中一些神經元的特性,即 神經元只接受其所支配的刺激區域內的信號

卷積神經網路最早是主要用來處理圖像信息。如果用全連接前饋網路來處理圖像時,會存在以下兩個問題:

目前的卷積神經網路一般是由卷積層、匯聚層和全連接層交叉堆疊而成的前饋神經網路,使用反向傳播演算法進行訓練。 卷積神經網路有三個結構上的特性:局部連接,權重共享以及匯聚 。這些特性使卷積神經網路具有一定程度上的平移、縮放和旋轉不變性。

卷積(Convolution)是分析數學中一種重要的運算。在信號處理或圖像處理中,經常使用一維或二維卷積。

一維卷積經常用在信號處理中,用於計算信號的延遲累積。假設一個信號發生器每個時刻t 產生一個信號 ,其信息的衰減率為 ,即在 個時間步長後,信息為原來的 倍。假設 ,那麼在時刻t收到的信號 為當前時刻產生的信息和以前時刻延遲信息的疊加:

我們把 稱為 濾波器(Filter)或卷積核(Convolution Kernel) 。假設濾波器長度為 ,它和一個信號序列 的卷積為:

信號序列 和濾波器 的卷積定義為:

一般情況下濾波器的長度 遠小於信號序列長度 ,下圖給出一個一維卷積示例,濾波器為 :

二維卷積經常用在圖像處理中。因為圖像為一個兩維結構,所以需要將一維卷積進行擴展。給定一個圖像 和濾波器 ,其卷積為:

下圖給出一個二維卷積示例:

注意這里的卷積運算並不是在圖像中框定卷積核大小的方框並將各像素值與卷積核各個元素相乘並加和,而是先把卷積核旋轉180度,再做上述運算。

在圖像處理中,卷積經常作為特徵提取的有效方法。一幅圖像在經過卷積操作後得到結果稱為 特徵映射(Feature Map)

最上面的濾波器是常用的高斯濾波器,可以用來對圖像進行 平滑去噪 ;中間和最下面的過濾器可以用來 提取邊緣特徵

在機器學習和圖像處理領域,卷積的主要功能是在一個圖像(或某種特徵)上滑動一個卷積核(即濾波器),通過卷積操作得到一組新的特徵。在計算卷積的過程中,需要進行卷積核翻轉(即上文提到的旋轉180度)。 在具體實現上,一般會以互相關操作來代替卷積,從而會減少一些不必要的操作或開銷。

互相關(Cross-Correlation)是一個衡量兩個序列相關性的函數,通常是用滑動窗口的點積計算來實現 。給定一個圖像 和卷積核 ,它們的互相關為:

互相關和卷積的區別僅在於卷積核是否進行翻轉。因此互相關也可以稱為不翻轉卷積 。當卷積核是可學習的參數時,卷積和互相關是等價的。因此,為了實現上(或描述上)的方便起見,我們用互相關來代替卷積。事實上,很多深度學習工具中卷積操作其實都是互相關操作。

在卷積的標準定義基礎上,還可以引入濾波器的 滑動步長 零填充 來增加卷積多樣性,更靈活地進行特徵抽取。

濾波器的步長(Stride)是指濾波器在滑動時的時間間隔。

零填充(Zero Padding)是在輸入向量兩端進行補零。

假設卷積層的輸入神經元個數為 ,卷積大小為 ,步長為 ,神經元兩端各填補 個零,那麼該卷積層的神經元數量為 。

一般常用的卷積有以下三類:

因為卷積網路的訓練也是基於反向傳播演算法,因此我們重點關注卷積的導數性質:

假設 。

, , 。函數 為一個標量函數。

則由 有:

可以看出, 關於 的偏導數為 和 的卷積

同理得到:

當 或 時, ,即相當於對 進行 的零填充。從而 關於 的偏導數為 和 的寬卷積

用互相關的「卷積」表示,即為(注意 寬卷積運算具有交換性性質 ):

在全連接前饋神經網路中,如果第 層有 個神經元,第 層有 個神經元,連接邊有 個,也就是權重矩陣有 個參數。當 和 都很大時,權重矩陣的參數非常多,訓練的效率會非常低。

如果採用卷積來代替全連接,第 層的凈輸入 為第 層活性值 和濾波器 的卷積,即:

根據卷積的定義,卷積層有兩個很重要的性質:

由於局部連接和權重共享,卷積層的參數只有一個m維的權重 和1維的偏置 ,共 個參數。參數個數和神經元的數量無關。此外,第 層的神經元個數不是任意選擇的,而是滿足 。

卷積層的作用是提取一個局部區域的特徵,不同的卷積核相當於不同的特徵提取器。

特徵映射(Feature Map)為一幅圖像(或其它特徵映射)在經過卷積提取到的特徵,每個特徵映射可以作為一類抽取的圖像特徵。 為了提高卷積網路的表示能力,可以在每一層使用多個不同的特徵映射,以更好地表示圖像的特徵。

在輸入層,特徵映射就是圖像本身。如果是灰度圖像,就是有一個特徵映射,深度 ;如果是彩色圖像,分別有RGB三個顏色通道的特徵映射,深度 。

不失一般性,假設一個卷積層的結構如下:

為了計算輸出特徵映射 ,用卷積核 分別對輸入特徵映射 進行卷積,然後將卷積結果相加,並加上一個標量偏置 得到卷積層的凈輸入 再經過非線性激活函數後得到輸出特徵映射 。

在輸入為 ,輸出為 的卷積層中,每個輸出特徵映射都需要 個濾波器以及一個偏置。假設每個濾波器的大小為 ,那麼共需要 個參數。

匯聚層(Pooling Layer)也叫子采樣層(Subsampling Layer),其作用是進行特徵選擇,降低特徵數量,並從而減少參數數量。

常用的匯聚函數有兩種:

其中 為區域 內每個神經元的激活值。

可以看出,匯聚層不但可以有效地減少神經元的數量,還可以使得網路對一些小的局部形態改變保持不變性,並擁有更大的感受野。

典型的匯聚層是將每個特徵映射劃分為 大小的不重疊區域,然後使用最大匯聚的方式進行下采樣。匯聚層也可以看做是一個特殊的卷積層,卷積核大小為 ,步長為 ,卷積核為 函數或 函數。過大的采樣區域會急劇減少神經元的數量,會造成過多的信息損失。

一個典型的卷積網路是由卷積層、匯聚層、全連接層交叉堆疊而成。

目前常用卷積網路結構如圖所示,一個卷積塊為連續 個卷積層和 個匯聚層( 通常設置為 , 為 或 )。一個卷積網路中可以堆疊 個連續的卷積塊,然後在後面接著 個全連接層( 的取值區間比較大,比如 或者更大; 一般為 )。

目前,整個網路結構 趨向於使用更小的卷積核(比如 和 )以及更深的結構(比如層數大於50) 。此外,由於卷積的操作性越來越靈活(比如不同的步長),匯聚層的作用變得也越來越小,因此目前比較流行的卷積網路中, 匯聚層的比例也逐漸降低,趨向於全卷積網路

在全連接前饋神經網路中,梯度主要通過每一層的誤差項 進行反向傳播,並進一步計算每層參數的梯度。在卷積神經網路中,主要有兩種不同功能的神經層:卷積層和匯聚層。而參數為卷積核以及偏置,因此 只需要計算卷積層中參數的梯度。

不失一般性,第 層為卷積層,第 層的輸入特徵映射為 ,通過卷積計算得到第 層的特徵映射凈輸入 ,第 層的第 個特徵映射凈輸入

由 得:

同理可得,損失函數關於第 層的第 個偏置 的偏導數為:

在卷積網路中,每層參數的梯度依賴其所在層的誤差項 。

卷積層和匯聚層中,誤差項的計算有所不同,因此我們分別計算其誤差項。

第 層的第 個特徵映射的誤差項 的具體推導過程如下:

其中 為第 層使用的激活函數導數, 為上采樣函數(upsampling),與匯聚層中使用的下采樣操作剛好相反。如果下采樣是最大匯聚(max pooling),誤差項 中每個值會直接傳遞到上一層對應區域中的最大值所對應的神經元,該區域中其它神經元的誤差項的都設為0。如果下采樣是平均匯聚(meanpooling),誤差項 中每個值會被平均分配到上一層對應區域中的所有神經元上。

第 層的第 個特徵映射的誤差項 的具體推導過程如下:

其中 為寬卷積。

LeNet-5雖然提出的時間比較早,但是是一個非常成功的神經網路模型。基於LeNet-5 的手寫數字識別系統在90年代被美國很多銀行使用,用來識別支票上面的手寫數字。LeNet-5 的網路結構如圖:

不計輸入層,LeNet-5共有7層,每一層的結構為:

AlexNet是第一個現代深度卷積網路模型,其首次使用了很多現代深度卷積網路的一些技術方法,比如採用了ReLU作為非線性激活函數,使用Dropout防止過擬合,使用數據增強來提高模型准確率等。AlexNet 贏得了2012 年ImageNet 圖像分類競賽的冠軍。

AlexNet的結構如圖,包括5個卷積層、3個全連接層和1個softmax層。因為網路規模超出了當時的單個GPU的內存限制,AlexNet 將網路拆為兩半,分別放在兩個GPU上,GPU間只在某些層(比如第3層)進行通訊。

AlexNet的具體結構如下:

在卷積網路中,如何設置卷積層的卷積核大小是一個十分關鍵的問題。 在Inception網路中,一個卷積層包含多個不同大小的卷積操作,稱為Inception模塊。Inception網路是由有多個inception模塊和少量的匯聚層堆疊而成

v1版本的Inception模塊,採用了4組平行的特徵抽取方式,分別為1×1、3× 3、5×5的卷積和3×3的最大匯聚。同時,為了提高計算效率,減少參數數量,Inception模塊在進行3×3、5×5的卷積之前、3×3的最大匯聚之後,進行一次1×1的卷積來減少特徵映射的深度。如果輸入特徵映射之間存在冗餘信息, 1×1的卷積相當於先進行一次特徵抽取

③ 基於卷積神經網路的圖像識別演算法_卷積神經網路提取圖像特徵

圖象識別容易,因為圖象可以在一個時間點成像

而語音沒有可能在一個時間點的采樣有用,語音多出來一個時間軸

而這個時間軸引入的難題就是:換個時間,換個人,換個背景噪音,都變得沒法子識別了

目前,主流的大詞彙量語音識別系統多採用統計模式識別技術

典型的基於統計模式識別方法的語音識別系統由以下幾個基本模塊所構成信號處理及特徵提取模塊

該模塊的主要任務是從輸入信號中提取特轎猜征,供聲學模型處理

同時,它一般也包括了一些信號處理技術,以盡可能降低環境雜訊、信道、說話人等因素對特徵造成的影響

統計聲學模型

典型系統多採用基於一階隱馬爾科夫模型進行建模

發音詞典

發音詞典包含系統所能處理的詞彙集及其發音

發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射

語言模型

語言模型對系統所針對的語言進行建模

理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍採用的還是基於統計的N元文法及其變體

解碼器

解碼器是語音識別系統的核心之一,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串

從數學角度可以更加清楚的了解上述模塊之間的關系

首先,統計語含慎音識別的最基本問題是,給定輸入信號或特徵序列,符號集(詞典),求解符閉老型號串使得:圖像識別比語音識別演算法的復雜度高多少

閱讀全文

與語音特徵信號輸入卷積網路相關的資料

熱點內容
校園網路共享上網提示凍結 瀏覽:479
酷我音樂關閉後為什麼沒有網路 瀏覽:292
微微網路免費打電話軟體 瀏覽:19
蘋果6移動只有2g網路 瀏覽:173
為什麼探探無法連接網路 瀏覽:693
商業貿易計算機網路 瀏覽:689
手機沒有網路信號怎麼導航 瀏覽:532
輸入網路安全密碼是否有辦法取消 瀏覽:168
海康威視紅外網路攝像機怎麼安裝 瀏覽:935
2020年國家網路安全宣傳周競賽 瀏覽:759
ad鋪銅設置不同網路不同距離 瀏覽:475
為什麼每次打開抖音都是網路差 瀏覽:554
csgo本地網路設置 瀏覽:97
網路不穩定一直斷網是什麼原因 瀏覽:192
一加手機連上wifi沒有網路 瀏覽:350
高層對講聯網是連的移動網路嗎 瀏覽:593
目前都有哪些網路教學平台 瀏覽:991
網路安全知識手抄報外加字簡單版 瀏覽:728
四級網路的四個格子是什麼 瀏覽:489
為什麼網路游戲這么貴 瀏覽:356

友情鏈接