<thead id="m4npn"><nav id="m4npn"></nav></thead>
          欧美日韩亚洲成人综合一区二区,国产11一12周岁女毛片,欧美日韩亚洲国产中文天堂a,骚虎视频在线观看,日本护士毛茸茸高潮,国产一区二三区日韩精品,亚洲国产欧美在线观看,爽到憋不住潮喷大喷水视频在线
          您當前的位置 :首頁 > 人物 > 權威訪談
          投稿

          華裔科學家汪德亮:我用深度學習顛覆了助聽技術

          2017-04-01 14:43:08 來源:IEEE Spectrum 作者:于波 點擊圖片瀏覽下一頁

           

          在我離家讀大學期間,我母親的聽力越來越差。我回家聊起大學生活時,她湊近了才能聽清楚我說什么。不久后,如果同時有不止一個人在說話,她就很難聽清。現在,即使戴著助聽器,她也難以區分每個人的聲音,所以一家人團聚時要輪流說話才能讓她聽明白。

          母親的苦處反映了助聽器制造商面臨的一個典型問題。人類聽覺系統能夠在擁擠的房間里,輕易辨別每個人的聲音,但幾十年來,信號處理專家、人工智能專家和聽力學家竭盡所能,也無法讓助聽器具備這種能力。1953年,英國認知科學家科林·切瑞(Colin Cherry)首次將其稱為“雞尾酒會問題”。

          六十多年后的今天,在需要助聽器的人之中,只有不到25%的人真正使用了助聽器。最令潛在用戶失望的地方在于,助聽器無法在多個聲音之間作出區分,比如說話聲和同時有汽車經過的聲音。遇到這種情況,助聽器只會調高兩個聲音的音量,結果就變成了混亂的嘈雜聲。

           

          7.66億人的市場

          到了必須解決這個問題的時候了。

          為了改善助聽器佩戴者的體驗,近一段時期,我在俄亥俄州立大學的實驗室利用了基于深度神經網絡的機器學習技術,用它來分離聲音。我們測試了多個版本的數字濾音器,這些濾音器不僅能放大聲音,還能將說話聲從背景噪音中分離出來,并自動調節每個聲音的音量。

          我們相信,這種方法最終能恢復聽力受損者對聲音的理解能力,使之達到、甚至超過正常人的聽力水平。事實上,我們的一個早期模型大幅增強了某些受試者在噪音中聽清話語的能力,準確率從10%提高到90%。

          如果沒有更好的助聽器,全世界的聽力狀況將惡化。據世界衛生組織估計,15%的成年人(約為7.66億人)存在聽力受損。而隨著人口增長以及老齡人口的比重增加,這個數字正在上升。先進助聽器的潛在市場不僅限于聽力受損者。研發人員可以利用這項技術改善智能手機的語音識別功能,企業主可以用它幫助員工在嘈雜的工廠里工作,軍隊可以把它作為軍事裝備,讓士兵能夠在震耳欲聾的戰場上,聽清戰友的話語。

          這構成了一個龐大的潛在市場。市場調研公司MarketsandMarkets估計,到2020年前,全球助聽器行業(目前規模為60億美元)將以每年6%的速度增長。但若想滿足所有那些新用戶的需求,就必須想辦法解決“雞尾酒會問題”,而深度神經網絡為我們指明了前進的方向。

          清晰語音:為了分離語音和噪聲,機器學習軟件把帶有噪聲的語音樣本分解成一個個時頻單元,然后分析這些單元,提取出用以區分語音和其他聲音的85個已知特征,接著,把這些特征輸入深度神經網絡。經過訓練的深度神經網絡會根據以前處理類似樣本的經驗,對單元進行分類,區別出哪些是語音,哪些是噪聲。最后,軟件使用數字濾音器,排除掉所有的非語音單元,只留下分離出來的語音。

          幾十年來,電子和計算機工程師一直都著眼于通過信號處理來實現語音分離,但每每以失敗告終。最常見的方法是利用語音活動探測器,識別人們在說話時的發音間隔。按照這種方法,系統會把間隔期間捕捉到的聲音認定為“噪音”。然后,計算機算法再從原始錄音中去除這些噪音,從理論上來說,只留下了沒有噪聲的語音。

          只是,這種被稱為“譜減法”的技術,效果很差,要么去除了太多的語音,要么去除的噪音太少。即使經過多年的發展,毛病依然很多,事實證明它能提供的幫助很有限。

          我意識到,我們必須另辟蹊徑。于是,我們從加拿大麥吉爾大學心理學家阿爾伯特·布雷格曼(Albert Bregman)的理論著手。1990年,布雷格曼提出,人類聽覺系統將聲音組織成不同的聲音流。從本質上說,一個聲音流對應一個聲音源,比如身邊的某位朋友。每個聲音流的音調、音量和方向來源都是獨一無二的。

          嘈雜的世界:人類的耳朵能同時捕捉到很多聲音流,這在一定程度上歸因于其奇特的形狀。一個聲音流是指一種聲音源發出的所有聲波,比如一只狗。所有這些聲音流匯聚在一起,構成了聽覺場景(犬吠聲+警笛聲+說話聲)。

          眾多聲音流(比如在喧鬧的球場里說話)匯聚在一起,就構成了布雷格曼所說的“聽覺場景”。如果多個聲音同時出現在同一個頻段,場景中最響亮的聲音便會掩蓋其他聲音,這個原理被稱為“聽覺遮蔽”。比如,當雨水滴答落在屋頂上時,你可能不會注意到房間角落里鐘表發出的聲音。MP3文件就是利用這個原理及其他技術,通過去除被掩蓋的聲音,將文件壓縮至原始大小的十分之一。

          按照布雷格曼的理論,我們想知道,可不可以打造一種濾音器,能夠在特定時刻、特定頻段內,確定一個聲音流是否強于其他聲音流。我們希望這款濾音器能告訴我們,在特定時刻,一個包含語音或者噪聲的聲音流,是否會在其頻段內處于更加強勢的地位,以此作為分離語音和噪聲的第一步。

          什么是理想二元掩模?

          2001年,我的實驗室率先設計出了這樣一種濾音器,它能夠把聲音流標記為兩種:以語音為主,或者以噪聲為主。有了這種濾音器,我們又開發了一款機器學習軟件,它能根據振幅(音量)、諧波結構(音調的特定排列)以及開始時刻(一個聲音相對于其他聲音開始的時間)等特征,把語音與其他聲音分離開來。

          最初開發的這種濾音器就是我們所說的理想二元掩模。它從名為“時頻單元”的聲音片段中,找出噪聲和語音,并加以標記。通過時頻單元,我們可以得知各個頻段獨有的發音間隔。濾音器會分析每個時頻單元帶有噪音的樣本,用1或0來標記。如果“目標”聲音(在此例中是語音)比噪聲更響亮,則標記為1;如果目標聲音更柔和,則標記為0。其結果就是一連串1和0,它們代表了噪聲或語音在樣本中的主導地位。然后,濾音器去掉所有標記為0的單元,再把那些標記為1的單元重新組織起來。為了從帶噪語音中重新構建出可理解的句子,必須有一定比例的時頻單元被標記為1。

          2006年,我們在美國空軍研究實驗室開始測試理想二元掩模。同時,雪城大學的一支研究團隊對理想二元掩模進行了獨立評估。在試驗中,這種濾音器不僅對聽覺受損者有幫助,而且也有助于聽力正常者更好地理解帶有噪音的句子。

          我們創造的濾音器在實驗室中表現完美,但必須要指出,現實環境并沒有實驗室那般理想。在實驗室中,對于每個樣本中語音和背景噪音誰強誰弱,我們是事先知道答案的(“理想”指的就是這個)。但在實際應用中,濾音器必須完全靠自己的能力,將語音從噪聲中分離出來。

          仔細傾聽:在2013年拍攝的這張照片中,俄亥俄州立大學的研究人員正在測試一款基于深度神經網絡、用來分離語音的機器學習軟件。左二穿藍色上衣的年長者正是本文作者汪德亮。

          盡管如此,理想二元掩模能為理解語音提供極大幫助,這一事實具有重大意義。它表明,分類技術(監督學習的一種形式)可以被用來模擬理想二元掩模,以此作為一種分離語音與噪聲的方法。依靠分類,機器通過完成訓練、接收反饋、從實踐中吸取和牢記經驗教訓,來模擬人類的學習過程。從本質上來說,我們小時候也是通過同樣的方法學會分辨蘋果和橘子的。

          隨后幾年,我的實驗室首先是嘗試通過分類來模擬理想二元掩模。大約在我們開發初代分類器的同時,卡內基梅隆大學的一支團隊利用機器學習技術,發明了他們自己的時頻單元分類方法,但目的有所不同,是用來改善自動語音識別。后來,德克薩斯大學的一支團隊采用了一種不同的分類方法,在使用單聲道特征來提高語音理解方面第一次實現了重要進展——這與雙耳捕捉到的雙聲道特征有很大區別。

          但這些早期機器學習方法使用的分類技術仍然不夠強大或準確,還無法真正讓助聽器佩戴者受益。在現實世界中,噪聲和語音的混合毫無規律可言,對于這樣的復雜場景,這些實驗室方法根本無能為力。因此,我們需要一種更加強大的分類技術。

          理想二元掩模+深度學習

          我們的早期分類算法取得了比較理想的初步結果,于是我們決定接著走下去,對它進行改良,讓它在嘈雜的現實環境中也能發揮作用。這個挑戰促使我們去做以前從未做過的事:打造一款基于神經網絡的機器學習軟件,經過復雜的訓練過程后,可以將語音和噪聲分離。該軟件利用理想二元掩模,來引導對神經網絡的訓練。效果很不錯。在一項涉及24個測試對象的研究中,這款軟件使聽覺受損者的語音理解能力提高了大約50%。

          可以說,神經網絡就是一種軟件系統,由眾多相對簡單的單元構成,通過這些單元的協同工作,達到復雜的處理水平(系統的結構大致上模擬了大腦神經元網絡的工作方式)。在面對新的樣本時,神經網絡像人腦一樣,通過調整連接線的權重來“學習”。

          智能層:深度神經網絡包含兩個或以上的處理層,位于輸入層和輸出層之間。信息通過輸入層輸入系統(左),輸出層輸出結果(右)。為了提高性能,研究人員可以調整系統的參數和層與層之間的連接。

          神經網絡有多種形態和大小,復雜程度不一。深度神經網絡擁有至少兩個“隱藏的”處理層,它們不是直接與系統的輸入和輸出相連。每個隱藏層分析前幾層傳遞而來的結果,根據先驗知識,加入新的考慮因素。

          為了打造我們自己的深度神經網絡,我們先編寫算法,根據聲波的振幅、頻率和聲調的常見變化,提取出可以用來區分語音和噪聲的特征。我們識別出的特征有85個,最重要的特征包括聲音的頻率和強度(響亮還是輕柔)。

          然后,我們對深度神經網絡進行訓練,讓它利用這85個特征來區分語音和噪聲。訓練分成兩個階段:在第一階段,我們通過無監督學習,設定程序的參數。也就是說,我們把特征的很多例子載入程序,好讓它事先了解以后在實際運行過程中要分類的信號類型。

          接下來,我們利用帶噪語音樣本及其理想二元掩模的相應結果,來完成第二階段的訓練,即監督學習。那些“1和0”分類結果就如同考試題,用來不斷磨練程序區的能力。

          如果神經網絡輸出結果與理想二元掩模之間存在差異,就會被判為錯誤。經過計算和,我們會相應地調整神經網絡連接線的權重,以便再次進行同樣的分類時,使偏差縮小。對神經網絡的訓練要經過成千上萬次這樣周而復始的考試。

          在這個過程中有一個重要的改進,就是建立了第二個深度神經網絡,對第一個網絡的結果進行調整。第一個網絡專注于標記各個時頻單元的特征,而第二個網絡會檢查特定單元附近幾個單元的特征。

          為什么這個改進效果很好?可以打個比方來解釋:如果說第一個網絡著眼于一套待售住宅的各個房間,那么第二個網絡就是用來考察住宅周邊的環境。換句話說,第二個網絡向第一個網絡提供了有關語音和噪聲的額外背景,從而進一步提高了分類的準確性。

          讓人欣喜的考試成績

          監督訓練結束時,深度神經網絡分類器在分離語音和噪聲方面明顯優于以前的方法。事實上,在依靠單聲道技術的所有算法中,這種算法在幫助聽障者理解帶噪語音方面首次取得重大進步。

          接下來我們進行了人類實測。我們請12位聽障者和12位聽覺正常者通過耳機聽取嘈雜環境中的句子樣本。樣本成對出現:首先是語音和噪聲同時發生,然后是用我們基于深度神經網絡打造的程序處理同一個樣本。句子中有兩種噪音,一種是持續的嗡嗡聲,另一種是很多人同時說話的嘰嘰喳喳聲。

          在經過程序處理后,兩組實驗對象的聽力理解能力均出現大幅提升。在沒有經過程序處理的情況下,聽力受損者在嗡嗡聲的環境中只能懂36%的單詞,經過程序處理后,這個比例提高到86%。在嘰嘰喳喳的嘈雜環境中,他們一開始只能理解29%的單詞,而經過程序處理后,能理解的單詞提升到84%。

          對于聽力正常者,在第一種噪音環境中,他們的理解力從37%提高到80%;第二種環境中,這個數字從42%提高到78%。

          在我們的實驗中,最引人注目的一個結果是,聽力受損者在程序的幫助下,理解能力甚至可以超過聽力正常者。憑借這些結果,可以自豪地說,我們這套基于深度神經網絡打造的程序,是迄今為止最接近于解決雞尾酒會問題的一種技術。

          當然,該程序的能力也存在局限性。例如,在我們的樣本中,掩蓋語音的噪音類型非常類似于程序在訓練過程中分類的噪音類型。想要在現實生活中發揮作用,程序需要迅速學會濾除很多的噪音類型,包括不同于它已經碰到過的類型。例如,通風系統的嘶嘶聲不同于冰箱壓縮機的嗡嗡聲。另外,我們使用的帶噪樣本中,并沒有將回聲包括進去,而回聲會使雞尾酒會問題變得更加復雜。

          在得到那些早期研究結果后,我們又購買了一個為電影制片人設計的聲效數據庫,用其中的1萬種噪音,進一步訓練我們的程序。2016年,我們發現,重新訓練后的程序可以對抗全新的噪音,顯著改善理解能力。目前,我們正在更多的環境中運行該程序,讓更多的聽覺受損者測試它。

          最終,我們相信該程序可以在性能強大的計算機上進行訓練,直接嵌入助聽器或者通過藍牙等無線連接方式與智能手機協同工作,向耳機提供經過處理的實時信號。而且制造商還可以通過發布加強版的軟件補丁來不斷提高助聽器的性能。

          有了這種方法,雞尾酒會問題不再像幾年前那樣令人怯步。通過在更多的噪音環境中進行更廣泛的訓練,我們和其他人現在開發的軟件有望最終克服這一難題。這個過程就像小孩學習分離語音和噪聲的過程,也就是不斷地暴露于各種各樣的語音和噪聲環境中。通過更多的練習,這種方法只會越來越好。這就是其魅力所在。

          責任編輯: 劉偉
          版權聲明:
          ·凡注明來源為“今日報道網”的所有文字、圖片、音視頻、美術設計和程序等作品,版權均屬今日報道網所有。未經本網書面授權,不得進行一切形式的下載、轉載或建立鏡像。
          ·凡注明為其它來源的信息,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
          不良信息舉報信箱 網上投稿
          關于本站 | 廣告服務 | 免責申明 | 招聘信息 | 聯系我們
          今日報道網 版權所有 Copyright(C)2005-2016 魯ICP備16043527號-1

          魯公網安備 37010402000660號

          主站蜘蛛池模板: 亚洲精品自拍在线视频| 国产精品亚洲精品日韩已满十八小| 毛片40分钟免费看| 亚洲热视频这里只有精品| 爱的躯壳在线观看| 国产欧美日韩综合aⅴ天堂| 玩成熟老熟女视频| 91麻豆精品国产自产在线观看| 借种被公日日躁| 91麻豆国产福利精品| 女人高潮被爽到呻吟在线观看| 国内综合视频一区二区三区| 丰满少妇久久无码少妇| 亚洲精品偷拍自综合网| 亚卅日韩久久影视观看| 欧美韩中文精品有码视频在线| 日日狠狠久久偷偷色综合96蜜桃| 欧美乱色伦图片区| 国产成人8x视频网站入口| 午夜自产精品一区二区三区| 天天爽夜夜爱| 欧美在线视频观看| 日韩人妻精品无码久久上司| 最好中文字幕视频2018| 色偷偷天堂av狠狠狠在| 国产国拍精品av在线观看| 亚洲精品无码mv在线下载| 国产Av无码片毛片一级| 成人免费视频在线观看| 亚洲精品无码mv在线下载| 免费萌白酱国产一区二区| 一区二区久久| 午夜精品一区二区三区在线观看| 国产亚洲综合精品电影| 开心一区二区三区激情| 亚洲精品揄拍自拍首页一| 西西大胆午夜人体视频| 热久久这里只有精品99| 久草资源源福利| 蜜臀一区二区三区精品免费| 国产精品无码不卡在线播放|