CFCC.rar
(6.49 MB, 下載次數(shù): 42)
本人聲明,所呈交的學位論文是在導師的指導下完成的。論文中取得 的研究成果除加以標注和致謝的地方外,不包含其他人己經發(fā)表或撰寫過 的研究成果,也不包括本人為獲得其他學位而使用過的材料。與我一同工 作的同志對本研究所做的任何貢獻均己在論文中作了明確的說明并表示謝意。
學位論文作者簽名: 日期:
本學位論文作者和指導教師完全了解東北大學有關保留、使用學位論 文的規(guī)定:即學校有權保留并向國家有關部門或機構送交論文的復印件和 磁盤,允許論文被查閱和借閱。本人同意東北大學可以將學位論文的全部 或部分內容編入有關數(shù)據(jù)庫進行檢索、交流。
作者和導師同意網(wǎng)上交流的時間為作者獲得學位后: 半年□一年□ 一年半□ 兩年□
學位論文作者簽名:導師簽名: 簽字日期:簽字日期:
語音特征參數(shù)提取是影響語音識別系統(tǒng)的關鍵技術之一,近年來結合聽覺特性的語 音特征參數(shù)提取是語音識別領域的研究熱點。而隨著物聯(lián)網(wǎng)技術的廣泛推廣,設計并實 現(xiàn)面向應用的語音識別系統(tǒng)引起越來越多科研人員的關注。
本文在綜述了語音識別技術中語音特征參數(shù)提取的研究發(fā)展及其在物聯(lián)網(wǎng)應用的 基礎上,實現(xiàn)了一種基于聽覺模型的特征參數(shù):耳蝸基底膜倒譜系數(shù)(CFCC),并將其應 用于物聯(lián)網(wǎng)重要分支智能家居系統(tǒng)中,以實現(xiàn)非特定人、語音交互的智能家居系統(tǒng)。本 文的主要工作如下:
首先,研究基于聽覺模型的 CFCC,介紹其數(shù)學定義、實現(xiàn)方法,并在 MATLAB 環(huán)境下進行仿真研究。仿真實驗中還提取了 MFCC 和GFCC,和 CFCC 進行對比試驗, 實驗室安靜環(huán)境下錄制的音頻測試文件信噪比高,所有特征參數(shù)的識別率都可以達到 90% 以上,對該音頻文件添加白噪聲,令信噪比為 6dB 時,MFCC 的識別率下降為 67.5%, GFCC 和 CFCC 的稍有下降,分別為 86.8%和 90.4%。當信噪比為0dB 時,MFCC 的識 別率下降到 20%以下,GFCC 和 CFCC 的亦有下降趨勢,分別為 45.0%和 65.2%,但 CFCC 的表現(xiàn)要優(yōu)于 。實驗說明 具有更好的抗噪性。
然后,將 CFCC 整合到 Sphinx 語音識別系統(tǒng)中,以替換其默認的特征參數(shù) MFCC, 實現(xiàn)基于 CFCC 的語音識別系統(tǒng),并將該系統(tǒng)移植到嵌入式開發(fā)平臺。其中,嵌入式開 發(fā)平臺以 OMAP3530 為核心處理控制芯片,搭載嵌入式 Linux 操作系統(tǒng),并添加了 QT 圖形界面庫、ALSA 音頻庫、NRF24L01 無線模塊及驅動等支持,有效保證語音識別系 統(tǒng)實現(xiàn)。
最后將實現(xiàn)的基于 CFCC 的語音識別系統(tǒng),應用到物聯(lián)網(wǎng)分支智能家居系統(tǒng)中。該 系統(tǒng)將用戶從傳統(tǒng)的利用手和眼的交互方式解放出來,可以在不固定的地點,不中斷用 戶當前行為的情況下利用語音信號以非接觸方式完成對智能家居系統(tǒng)的操作。
Design of speech recognitionsystem based on CFCC and application in the Internet ofThings
Feature extraction is one of the key technology in Automatic Speech Recognition(ASR). In recent years, feature extraction combined with auditorycharacteristics is a hotspot. With the extensive popularization of the Internet of Things (IoT), the design and realization of ASR for IoT is attracting more and moreattention from researchers.
This paper summarizes the research and development of feature extraction and its appli- cation on IoT. And a feature based on auditory model called CochleaFeature Cepstral Coeff- ieients(CFCC) is implemented. The CFCC is applied to the speaker-independent and voice interactive smart home system which isone of the important branch of IoT. The main work are as follow:First, the mathematical definition and realization method of CFCC is introduced in this paper, and the simulation study in MATLAB is implemented. MFCCand GFCC are also extracted to compared with CFCC under different level of Signal to Noise Ratio(SNR). The clean testing condition recorded under a quietenvironment in the laboratory has a high SNR, the accuracy of all features are more than 90%. After adding white noise, the SNR of the testing conditiondrops to 6dB, the performance of MFCC drops to 67.5%, GFCC is 86.8%, and CFCC is 90.4%. If the SNR is 0dB, the MFCC accuracy is less than 20%,GFCC is
45.0%, and CFCC is 65.2%, but it is still higher than the other two. The experiments shows that CFCC has better noise immunity.
Second, design an ASR based on CFCC which is integrating CFCC into the Sphinx to replace its default feature MFCC. Then ported it to embedded platform. The embedded plat- form based on OMAP3530 and installed Linux. What’s more, the QT graphical library, ALSA library, NRF24L01 wireless moduleand its driver are added which can guarantee the imple- mentation of ASR effectively.
Finally, applied the ASR based on CFCC into smart home system. This system liberate users from the traditional way of hands and eyes interaction. Userscould operate the smart home system in non-contact way without fixd place and interrupting their current behavior
摘 要 ...................................................................................................................................... II Abstract............................................................................................................................... III 第1章 緒論........................................................................................................................ 1
6.2 展望............................................................................................................................ 67 參考文獻.............................................................................................................................. 69 致 謝..................................................................................................................................... 73 攻讀學位期間的研究成果........................................................................................... 75
語音識別的研究工作起步于上個世紀 50 年代。90 年代開始,語音識別技術逐漸從 實驗室走向應用。根據(jù)其實用化的需要,人耳聽覺模型的研究逐漸為學者所重視,出現(xiàn) 了不同類型的基于聽覺模型的參數(shù):感知加權線性預測參數(shù)(Perceptual Linear Predictive, PLP)、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrun Coefficient,MFCC)、Gammatone 濾 波器參數(shù)、Gammachirp 濾波器參數(shù)[1][2]。同時出現(xiàn)了一批比較成功的語音識別軟件:IBM 的 ViaVioce,Microsoft 的 SpeechSDK,Google 的 Google Speech API,Nuance 的 Naturally Speaking 以及開源語音識別系統(tǒng)HTK,Sphinx[3]和 Julius。
進入 21 世紀后隨著電子產品的普及,嵌入式語音處理技術迅速發(fā)展。語音識別技 術也順勢進入該領域,其表現(xiàn)形式為出現(xiàn)獨立的語音識別芯片如 Sensory 公司的 Rsc 系 列語音識別芯片、 公司的 Unispeech 和 Unilite 語音芯片等;或者為語音識別軟 件出現(xiàn)嵌入式版本分支,例如 SpeechSDK,Google Speech API,Sphinx 等先后實現(xiàn)對嵌 入式設備的支持。我國語音識別研究工作一直緊跟國際水平,國內的語音識別始于七十 年代,國家也很重視,并把大詞匯量語音識別的研究列入“863”計劃,由中科院聲學 所、自動化所及清華大學等單位研究開發(fā)[4]。經過四十余年的發(fā)展,漢語語音識別領域 取得了豐碩的成果。在實用方面,也涌現(xiàn)出不少以語音識別技術為核心的公司,例如語 音識別芯片提供商 ICRoute,語音識別引擎提供商科大訊飛。
語音識別技術以其極具誘惑力的發(fā)展?jié)摿Γ藝鴥韧庖慌忠慌鷮W者投入其中, 并且取得了很大的成就,部分技術已經走出實驗室進入實用化階段,很大的鼓舞了研究 人員的熱情,然而其發(fā)展并非一帆風順,現(xiàn)在還有許多困難需要解決:
1.噪聲環(huán)境:由于環(huán)境復雜、噪聲源較多,使得在實驗室環(huán)境下可以輕松識別的 系統(tǒng)應用在實際環(huán)境中識別率明顯下降[5];
2.連續(xù)語音:漢語連續(xù)語音的連續(xù)程度高,協(xié)同發(fā)音現(xiàn)象嚴重,表現(xiàn)為孤立詞匯 識別率很高,而在連續(xù)語音條件下識別率下降[6];
“訓練”,使語音識別系統(tǒng)可以針對性的對用戶語音進行識別,一旦更換系統(tǒng)或用戶, 則需要重新“訓練”,為用戶使用帶來諸多不便[7]。
目前大多數(shù)語音識別技術是基于統(tǒng)計模式的。從語音產生機理來看,語音識別可以 分為語音層和語言層兩部分,基于這種模式的語音識別系統(tǒng)包括四個部分:特征提取, 聲學模型訓練,語言模型訓練和搜索算法[7]。嘗試解決當前語音識別技術所面臨的的困 難,可以從以下幾個方面入手:
(1) 語音特征:聲學模型是語音識別最底層的模型,代表著語音學信息,是系統(tǒng)中 的關鍵部分。聲學模型建模時訓練單元的區(qū)分能力,直接取決于特征提取方法的優(yōu)劣。 特征提取要求提取的特征不但能夠有效的降低數(shù)字語音信號的數(shù)據(jù)量,還要保證包含原 始語音的全部有效信息。另外,特征提取最好還能夠具有抗噪性,這樣就可以從源頭上 保證語音識別系統(tǒng)的魯棒性[7]。
(2) 說話人適應性:每個人的語音中不但包含語言信息,還包含個人特征信息,目 前的語音識別系統(tǒng)無法將兩者有效區(qū)分。對于特定人的語音識別系統(tǒng),它采集特定人的 語音,進行訓練、識別,其識別率一般可以達到 以上。然而對于非特定人識別,由 于語音中個人特征的影響,造成訓練語音庫和測試語音庫總會存在差異,訓練語音庫不
能全面覆蓋和反映測試語音庫的語音[5]。通常通過下面的方法解決此類問題:其一,深 入研究語音發(fā)音機理,從中找出與說話人無關的反映語音—文本對應關系的參數(shù)序列, 本質上是尋找一種語音特征參數(shù),可以包含原始語音的全部語音學信息,而剔除說話人 的個性信息[4][8]。其二,增大訓練集的規(guī)模,使之涵蓋盡可能多的發(fā)音人的聲學特征, 從而減小個性信息的影響,由于這需要很大的語料庫而且訓練時間太長,影響實用性, 故這種方式不予推薦[7]。
(3) 語法知識的利用。選擇合適的語法知識可以明顯的糾正音素序列的錯誤判別, 降低最終語句的錯誤識別數(shù)。實際上,連續(xù)語音識別系統(tǒng)或多或少結合了某種語法知識。 語法知識定義越清楚、應用越充分,系統(tǒng)的識別率就會越高。目前典型的用于描述語法 規(guī)則結構的方法是使用狀態(tài)樹轉移結構的統(tǒng)計模式[6][9]。
的概念。在物聯(lián)網(wǎng)的發(fā)展過程中其內涵幾經變化,目前認為物聯(lián)網(wǎng)指將所有物體通過信 息傳感設備如射頻識別、全球定位系統(tǒng)、紅外感應器等與互聯(lián)網(wǎng)相結合,形成一個智能 化識別和管理的網(wǎng)絡。其目的是讓所有的物品都與網(wǎng)絡連接在一起,方便識別和管理。 物聯(lián)網(wǎng)的核心是實現(xiàn)物體(包含人)之間的互連,從而能夠實現(xiàn)物體與物體之間的信息交 換和通信。物體信息通過網(wǎng)絡傳輸?shù)叫畔⑻幚碇行暮罂蓪崿F(xiàn)各種信息服務和應用。物聯(lián) 網(wǎng)被預言為繼互聯(lián)網(wǎng)之后全球信息產業(yè)的又一次科技與經濟浪潮,受到各國政府、企業(yè) 和學術界的重視[10][11]。
物聯(lián)網(wǎng)的應用領域主要包括物流監(jiān)控、污染監(jiān)控、遠程醫(yī)療、智能交通和智能家居 等。其中,智能家居是以住宅為平臺,兼?zhèn)浣ㄖ、網(wǎng)絡通信、信息家電、設備自動化, 集系統(tǒng)、結構、服務、管理為一體的高效、舒適、安全、便利、環(huán)保的居住環(huán)境。智能 家居因其應用前景廣闊、潛在市場需求巨大且發(fā)展迅猛而受到廠商的廣泛關注[12]。
目前,大多數(shù)智能家居系統(tǒng)的人機交互是通過鍵盤、觸摸屏和 LCD 來完成[13][14]。 對用戶的操作地點、交互方式有很大的限制。本文中,嘗試將語音識別系統(tǒng)應用到智能 家居系統(tǒng)中,使用戶可以通過語音來完成和智能家居系統(tǒng)的交互,即構建人機語音交互 的智能家居系統(tǒng)。該系統(tǒng)將用戶從傳統(tǒng)的利用手和眼的交互方式中解放出來,可以在不 固定的地點,不中斷用戶當前行為的情況下利用語音信號以非接觸式完成對系統(tǒng)的操作。
第一:目前基于 MFCC 和 GFCC(Gammatone Frequency Cepstrum Coefficient)的語音 識別系統(tǒng)噪聲魯棒性較差。本文將深入學習基于聽覺模型的耳蝸倒譜系數(shù)(Cochlea Feature Cepstral Coeffieients,CFCC)的定義及各個環(huán)節(jié)的意義,在 MATLAB 環(huán)境下對該 參數(shù)進行仿真研究,分步論述 CFCC 的提取方法及實現(xiàn)過程。然后在不同信噪比條件下, 與 MFCC 和 GFCC 進行對比,觀察其抗噪性是否優(yōu)于他們。
第二:語音識別系統(tǒng)是一個完整的語音到文本的處理過程,不但包含特征提取環(huán)節(jié), 還包含預處理、模式匹配等環(huán)節(jié),實現(xiàn)語音識別系統(tǒng)每個環(huán)節(jié)都必不可少。Sphinx 是一 個開源的、完整的語音識別系統(tǒng),并且擁有完善的工具。本文中,首先學習 Sphinx 的 使用,掌握聲學模型和語言模型的訓練方法,掌握 Sphinx 語音識別系統(tǒng)的構建方法。 然后深入閱讀 Sphinx 源代碼,了解其組織架構,找出其中默認參數(shù)MFCC 的提取部分, 并修改為提取 CFCC 參數(shù),實現(xiàn)基于 CFCC 的 Sphinx 語音識別系統(tǒng)。
第三:本文以物聯(lián)網(wǎng)的典型應用——智能家居系統(tǒng)為應用環(huán)境,學習 Linux 操作系 統(tǒng)知識,掌握基本的操作方法及程序開發(fā)流程,在以OMAP3530 為核心的嵌入式開發(fā) 平臺上構建嵌入式 Linux 操作系統(tǒng),并添加 QT 圖形界面庫、ALSA(Advanced Linux Sound Architecture)音頻驅動庫、NRF24L01 無線模塊及驅動等必要支持。然后將基于 CFCC 的 Sphinx 語音識別系統(tǒng)移植到該開發(fā)平臺,并以此為核心,構建語音交互的智能家居系統(tǒng)。
本文的結構安排如下: 第一章:介紹語音識別技術的現(xiàn)狀,語音識別的關鍵技術,并概括了本文的主要研
究內容。 第二章:詳細介紹典型語音識別系統(tǒng)的各個組成部分,對理解語音識別各個環(huán)節(jié)如
何工作有很大的指導作用。介紹了目前幾種主流的基于人耳聽覺模型的特征參數(shù)提取方 法以及隱馬爾科夫模型應用于語音識別領域的基本原理和方法。另外,還介紹了 Sphinx 的原理及使用方法。
第三章:首先闡述 CFCC 的數(shù)學定義,然后詳細介紹其在 MATLAB 環(huán)境下的提取 方法及仿真實現(xiàn),并將此特征參數(shù)與傳統(tǒng)特征參數(shù)進行比較,實驗表明該參數(shù)在噪聲環(huán) 境下魯棒性更好。最后,介紹如何將該參數(shù)整合到 Sphinx 系統(tǒng)中。
第四章:首先介紹系統(tǒng)硬件平臺,然后介紹軟件開發(fā)平臺建立過程。這為后續(xù)應用 系統(tǒng)開發(fā)做好必要準備。
第五章:主要介紹基于 CFCC 的語音識別系統(tǒng)在物聯(lián)網(wǎng)的應用實現(xiàn),包括設備驅動 實現(xiàn)及應用系統(tǒng)實現(xiàn)兩部分。最終實現(xiàn)語音交互的智能家居系統(tǒng)。
第六章:總結本論文所做工作,針對系統(tǒng)中不完善的地方提出可能的改善方案,對 后續(xù)研究做簡明交待。
人類的語音信號是由肺部的收縮,壓迫氣流由支氣管經過聲門和聲道引起音頻振蕩 而產生的一種聲波。通常認為語音信號的信息主要集中在40-4kHz的范圍內[15]。
聲波是機械波,數(shù)字電路系統(tǒng)對語音進行處理,首先需要將其轉換為數(shù)字信號,并 確定有效語音數(shù)據(jù)段,該過程即預處理,一般包括預濾波(抗混疊濾波)、量化、預加重 和端點檢測。
(一) 預濾波 根據(jù)奈奎斯特采樣定律可知,采樣頻率應為輸入帶限信號最高頻率的二倍以上?
慮到在噪音環(huán)境中寬帶隨機噪聲疊加的結果,使得語音信號可能包含4kHz以上頻率成分, 為了防止頻譜混疊,必須在采樣前進行一次預濾波去掉有效信號之外的高頻噪音。預濾 波還有一個目的是避免50Hz的工頻干擾,因此預濾波是一個帶通濾波器,其下截止頻率
(二) 采樣及量化 采樣是將連續(xù)時間的語音信號轉換成離散時間信號,采樣之后的語音數(shù)據(jù)是離散時
間的模擬數(shù)據(jù),利用計算機進行存儲和處理則要經過量化,即AD轉換。原信號和量化 后的信號的差值稱為量化誤差。量化時,采用較大的量化級數(shù)來記錄采樣點的幅度,則 量化誤差越小,但相應的就會增加存儲容量和處理時的計算量,因此要根據(jù)需求選擇合 理的量化級數(shù)[15]。本文中量化級數(shù)為16,即每個采樣點為16bit。
文選取μ=0.9375。 (四) 端點檢測 語音信號的端點檢測是語音處理中常常涉及的問題。實驗表明,準確地檢測出語音
信號的端點不但可以減少后續(xù)處理的計算量,而且一定程度上影響整個系統(tǒng)的性能。目 前常用的端點檢測方法是基于短時能量和短時平均過零率的檢測方法(也稱作雙門限比 較法)。
| 歡迎光臨 (http://www.denmoz.com/bbs/) | Powered by Discuz! X3.1 |