

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、語音情感識別(Speech Emotion Recognition,SER)是目前情感計算、模式識別、信號處理和人機交互領域的熱門研究話題。SER的主要目的是對語音信號按照不同的情感進行分類,比如“生氣”、“恐懼”、“厭惡”、“高興”等。在過去的幾年里,已經(jīng)提出了許多有效的方法來應對SER中出現(xiàn)的問題。在各種研究方法中,大部分是集中在一個單一的語音數(shù)據(jù)庫上進行的。然而,在許多實際應用情況下,用于訓練的語料庫與測試語料庫存在非常大的差異,
2、例如訓練和測試數(shù)據(jù)庫來自兩種(或更多種)不同的語言、說話人、文化、分布方式、數(shù)據(jù)規(guī)模等。這就出現(xiàn)了一個重要的研究內(nèi)容:跨數(shù)據(jù)庫(Cross-corpus)的語音情感識別。由于SER的研究涉及特征提取、特征優(yōu)選、分類器改進、特征融合等多個技術(shù)部分,因此本文根據(jù)其特點,針對跨數(shù)據(jù)庫語音情感識別相關(guān)的關(guān)鍵技術(shù)進行研究。本研究主要內(nèi)容包括:
?、裴槍鐜煺Z音情感特征優(yōu)選分類,提出了帶有無限成分數(shù)的t分布混合模型(iSMM)。它可以直接對
3、多種語音情感樣本進行有效的識別。與傳統(tǒng)的高斯混合模型(GMM)相比,基于混合t分布的語音情感模型能有效處理樣本特征空間中存在異常值的問題。首先,t分布混合模型對用于測試的非典型情感數(shù)據(jù)能夠保持魯棒性。其次,針對高維空間引起的數(shù)據(jù)高復雜度和訓練樣本不足的問題,將全局隱空間加入情感模型。這種方法使樣本空間被劃分的成分數(shù)量為無限,形成一個iSMM情感模型。此外,該模型可以自動確定最佳的成分數(shù)量,同時滿足低復雜性,進而完成多種情感特征數(shù)據(jù)的分類
4、。為驗證所提出的iSMM模型對于不同情感特征分布空間的識別效果,本文在3個數(shù)據(jù)庫上進行仿真實驗,分別是:表演型語料庫DES、EMO-DB和自發(fā)型語料庫FAU。它們都是通用的語音情感數(shù)據(jù)庫,且具有高維特征樣本和不同的空間分布。在這種實驗條件下,驗證了各個模型對于特征異常值和高維數(shù)據(jù)的優(yōu)選效果以及模型本身的泛化性。結(jié)果顯示iSMM相比其它對比模型,保持了更穩(wěn)定的識別性能。因此說明本文提出的基于無限t分布的情感模型,在處理不同來源的語音數(shù)據(jù)時
5、具有較好的魯棒性,且對帶有離群值的高維情感特征具有良好的優(yōu)選識別能力。
?、平Y(jié)合K近鄰、核學習方法、特征線重心法和LDA算法,提出了用于情感識別的LDA+kernel-KNNFLC方法。首先針對過大的先驗樣本特征數(shù)目造成的計算量龐大問題,采用重心準則學習樣本距離,改進了核學習的K近鄰方法;然后加入LDA對情感特征向量優(yōu)化,在避免維度冗余的情況下,更好的保證了類間情感信息識別的穩(wěn)定性。對于跨庫領域的研究,關(guān)注了獨立數(shù)據(jù)庫中不同類別
6、間邊界擬合度過高導致的識別性能差異;通過對特征空間再學習,所提出的分類方法優(yōu)化了情感特征向量的類間區(qū)分度,適合于不同語料來源的情感特征分類。在包含高維全局統(tǒng)計特征的兩個語音情感數(shù)據(jù)庫上進行了仿真實驗。通過降維方案、情感分類器和維度參數(shù)進行多組實驗對比分析,結(jié)果表明:LDA+kernel-KNNFLC方法在同條件下識別性能有顯著提升,具有相對穩(wěn)定的情感類別間分類能力。
?、轻槍鐜鞐l件下情感特征類別的改進(擴充)研究,提出了基于聽
7、覺注意模型的語譜圖特征提取方法。模型模擬入耳聽覺特性,能有效探測語譜圖上變化的情感特征。同時,利用時頻原子對模型進行改進,取得頻率特性信號匹配的優(yōu)勢,從時域上提取情感信息。在語音情感識別技術(shù)中,由于噪聲環(huán)境、說話方式和說話人特質(zhì)等原因,會造成特征空間分布不匹配的情況。從語音學上分析,該問題多存在于跨數(shù)據(jù)庫情感識別任務中。訓練的聲學模型和用于測試的語句樣本之間的錯位,會使語音情感識別性能急劇下降。語譜圖的特征能從圖像的角度對現(xiàn)有情感特征進
8、行有效的補充。聽覺注意機制使模型能提取跨語音數(shù)據(jù)庫中的顯著性特征,提高語音情感識別系統(tǒng)的情感辨識能力。仿真實驗部分利用文章所提出的方法在跨庫情感樣本上進行特征提取,再通過典型的分類器進行識別。結(jié)果顯示:與國際通用的標準方法相比,語譜圖情感特征的識別性能提高了約9個百分點,從而驗證了該方法對不同數(shù)據(jù)庫具有更好的魯棒性。
?、壤蒙疃葘W習領域的深度信念模型,提出了基于深度信念網(wǎng)絡的特征層融合方法。將語音頻譜圖中隱含的情感信息作為圖像
9、特征,與傳統(tǒng)聲學情感特征融合。研究解決了跨數(shù)據(jù)庫語音情感識別中,將不同尺度上提取的情感特征相結(jié)合的技術(shù)難點。利用STB/Itti模型對語譜圖進行分析,從顏色、亮度、方向三個角度出發(fā)提取語譜圖特征;然后研究改進了DBN網(wǎng)絡模型,并利用其對傳統(tǒng)聲學特征與語譜圖特征進行了特征層融合,擴充了特征子集的尺度,提升了情感表征能力。通過在ABC數(shù)據(jù)庫和多個中文數(shù)據(jù)庫上的實驗驗證,特征融合后的新特征子集相比傳統(tǒng)的語音情感特征,其跨數(shù)據(jù)庫識別性能獲得了明
10、顯提升。
?、裳芯苛擞煽鐢?shù)據(jù)庫條件下不同語言的使用和大量非特定說話人引起的SER模型特征自適應問題。根據(jù)前面章節(jié)所介紹的跨庫語音情感識別的內(nèi)容,對特征參數(shù)失真、語譜圖特征構(gòu)造、建模算法對比、在線優(yōu)化等方面進行了自適應相關(guān)的研究,并對具體的實驗性能進行了比較分析。首先,討論了現(xiàn)有的語音情感識別自適應方法。然后,對于跨庫的情況,進一步研究了自適應說話人加性特征失真的情況,并給出模型方案。接著,為研究多說話人自適應問題給SER系統(tǒng)帶來
11、的影響,對其過程進行建模,將高斯混合模型與學生t分布模型兩種統(tǒng)計方法進行對比討論。再分別利用各自適應方案來獲取包括語譜圖特征在內(nèi)的特征函數(shù)集。此外,還使用了一些在線數(shù)據(jù)對特征函數(shù)進行了快速優(yōu)化。最后,在四種不同語言的數(shù)據(jù)庫上(包括:德語、英語、中文和越南語)驗證了各自適應方案的有效性。實驗結(jié)果表明:改進的自適應方案具有良好的說話人特征自適應效果,尤其在處理大量未知說話人的情況下顯示了較好的模型參數(shù)遷移能力。此外,對于由跨數(shù)據(jù)庫中不同語言
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 語音情感識別若干關(guān)鍵技術(shù)研究.pdf
- 實用語音情感識別若干關(guān)鍵技術(shù)研究.pdf
- 語音情感識別若干關(guān)鍵技術(shù)研究博士論文
- 語音情感識別的關(guān)鍵技術(shù)研究.pdf
- 語音情感識別關(guān)鍵技術(shù)研究.pdf
- 語音識別系統(tǒng)若干關(guān)鍵技術(shù)研究.pdf
- 普通話語音情感識別關(guān)鍵技術(shù)研究.pdf
- 語音識別關(guān)鍵技術(shù)研究.pdf
- 漢語語音識別應用系統(tǒng)中的若干關(guān)鍵技術(shù)研究.pdf
- 虹膜識別若干關(guān)鍵技術(shù)研究.pdf
- 虹膜識別的若干關(guān)鍵技術(shù)研究.pdf
- 孤立詞語音識別的關(guān)鍵技術(shù)研究.pdf
- 時空數(shù)據(jù)庫若干關(guān)鍵技術(shù)研究.pdf
- 內(nèi)存數(shù)據(jù)庫若干關(guān)鍵技術(shù)研究.pdf
- 全文數(shù)據(jù)庫若干關(guān)鍵技術(shù)研究.pdf
- 文檔數(shù)據(jù)庫若干關(guān)鍵技術(shù)研究.pdf
- 雙模態(tài)情感識別關(guān)鍵技術(shù)研究.pdf
- 手寫維吾爾文字識別若干關(guān)鍵技術(shù)研究.pdf
- MicroRNA識別中的若干關(guān)鍵技術(shù)研究.pdf
- 非特定人孤立詞語音識別系統(tǒng)若干關(guān)鍵技術(shù)研究.pdf
評論
0/150
提交評論