仿生系列6--人機(jī)交流
導(dǎo)言:機(jī)器可以翻譯的語音命令越來越多。但是與人類大腦相比,人工智能計算機(jī)可以更好地理解語言信息嗎?
人類用了上千年的時間,才學(xué)會使用語言,然而計算機(jī)只花費了50年的時間就在語音識別和語義解讀技術(shù)上取得了令人刮目相看的成就。IBM公司開發(fā)的超級計算機(jī)沃森(Watson)可以“理解”比較復(fù)雜的語言含義,是目前世界上最智能的計算機(jī)系統(tǒng)之一。它的實力在今年2月份得到了驗證——成功挑戰(zhàn)美國王牌智力問答節(jié)目《危險邊緣》中的人類高手,沒費多少力氣就拿下了冠軍。這件事一度引起了轟動,因為對語言的理解過程是人類大腦中最復(fù)雜的處理過程。但是,沃森真的理解了人類的語言嗎?或者它只是“回想”起了存儲在硬盤里的標(biāo)準(zhǔn)化答案。
在語音識別的過程中,人類與計算機(jī)的相似性超出大多數(shù)人的想象。然而,在解讀語言信息時的決定性因素卻不相同,因為最復(fù)雜的計算機(jī)也只能按指令執(zhí)行計算,但是人類大腦常常是發(fā)散的,它可以理解錯綜復(fù)雜的信息。
識別:接收和分析語言
現(xiàn)在,抓取人類語音對于計算機(jī)而言難度并不大,比如售價100歐元的Dragon Naturally Speaking語音識別程序就可以非常出色地識別人類語音。語音識別的過程需要將“抓取”到聲音中的字詞與句子整合在一起,然后通過非常復(fù)雜的系統(tǒng)才能識別出語音的內(nèi)容。為了正確地識別語言,首先要將識別出的語音轉(zhuǎn)換為數(shù)字信號。在這個過程中,語言識別系統(tǒng)必須過濾掉所有的背景噪音才可以處理真正的聲音。這是非常重要的一步,如果計算機(jī)將所有的聲音和噪音混合在一起,就無法理解真正需要的那句話了。
其實,人類的大腦也采用相同的識別模式,必須將聲波轉(zhuǎn)換成電信號,然后過濾掉噪音。然而,人類大腦對聲音的識別過程又遠(yuǎn)比計算機(jī)“聰明”,當(dāng)我們處在幾個人同時講話的嘈雜環(huán)境中時,耳朵會選擇性地直接屏蔽掉低于15dB的噪音,使大腦可以順利追蹤到其中一個人的聲音,與之順利交談(雞尾酒效應(yīng))。但是,計算機(jī)在這種環(huán)境下無法進(jìn)行準(zhǔn)確的區(qū)分,這是因為計算機(jī)對每個語音信號都采取同樣的處理方式,過濾器在嘈雜的環(huán)境中無能為力。
人類和計算機(jī)在處理過濾后的語音信號之前,都需要生成有效聲音的頻譜。對于人類而言,這個處理過程由耳朵完成;對于計算機(jī)而言,首先通過“快速傅里葉變換”將信號轉(zhuǎn)換為頻譜,然后頻譜經(jīng)過“隱馬爾可夫模型”轉(zhuǎn)換為音節(jié),最后組成有意義的詞語和句子。計算機(jī)需要運用語音數(shù)據(jù)庫、語法模型庫和例句庫來區(qū)別同音字詞,例如“神馬”和“什么”、“閱讀”和“悅讀”等,驗證這些語音在句子結(jié)構(gòu)中代表的真實含義。
目前最先進(jìn)的語音識別程序可以識別出大約98%的語言信息,無法識別的部分,用戶可以通過人工手動糾正。雖然取得了如此好的成就,但是軟件仍然在識別方言和俚語的時候很難保證其準(zhǔn)確性。因為與人類相比,計算機(jī)只能執(zhí)行指令,將聲音頻率化,無法靈活地判斷講話者的情緒信息、動作信息等。
解讀:語言在上下文中的含義
語音識別方面的很多問題可以通過更大的語音數(shù)據(jù)庫來解決。但是在理解人類的語言方面,計算機(jī)程序還面臨著許多基本性的問題。由于計算機(jī)沒有意識,所以只能依靠更復(fù)雜的規(guī)則來增強(qiáng)自己的語言理解能力,解讀聽到的語音含義。
在理解人類語言方面,計算機(jī)將希望寄托在語義網(wǎng)絡(luò)上,語義網(wǎng)絡(luò)由頂點和邊組成,其中,頂點代表的是概念,而邊則表示的是這些概念之間的語義關(guān)系。它可以回答諸如“今天北京朝陽區(qū)的氣溫是多少?”這樣的問題。在這個例子中,詞語“今天”對應(yīng)著時間,“北京朝陽區(qū)”對應(yīng)著地點,頂點之間的關(guān)聯(lián)(邊)就是“氣溫”。這就是為什么有了邊對頂點的限制,計算機(jī)就可能根據(jù)上下文來識別屋子里的“Windows(窗戶)”與微軟著名的操作系統(tǒng)“Windows(軟件)”的不同,識別可以吃的水果“Apple”與美國蘋果公司“Apple”的區(qū)別。
可以肯定的是,在有標(biāo)準(zhǔn)答案的問題上,計算機(jī)的能力遠(yuǎn)比人類更強(qiáng)大,這一點已經(jīng)被新的《危險游戲》王者——超級計算機(jī)沃森證明,沃森可以訪問由百科全書和詞典等組成的大約100GB的純文本資料庫。為了增加答案的準(zhǔn)確性,沃森同時采用幾百種算法進(jìn)行運算。在最后的分析過程中,沃森顯示的答案都是經(jīng)過一些高級人工智能的算法,將所聽到的詞語(頂點)與詞語之間的關(guān)聯(lián)(邊),通過邏輯命令計算出來的。
此外,沃森還具有自學(xué)習(xí)的能力,它可以存儲新的知識,并且與已經(jīng)存在的概念關(guān)聯(lián)起來形成更強(qiáng)大的語義網(wǎng)數(shù)據(jù)庫。我們可以將沃森視為高智商的大師嗎?顯然不能,因為沃森只能做到調(diào)用概念,并找出答案之間的關(guān)系而已,換句話說它并不能理解任何一句模棱兩可的話。
結(jié)論
人類可以做到同時與多人交流,根據(jù)情景理解對方所講語音的含義,機(jī)器則很難做到。相比而言,人類大腦的神經(jīng)網(wǎng)絡(luò)非常復(fù)雜,關(guān)聯(lián)信息、最新事件、環(huán)境氛圍都會被納入考慮范圍,同時只會提取這些信息中的有用因素,不像計算機(jī)一樣只能盲目地保留所有細(xì)節(jié)。目前,計算機(jī)的唯一優(yōu)勢就是它的數(shù)據(jù)庫,原則上數(shù)據(jù)庫會收集、分類,并且隨時調(diào)用所有搜集到的語音信息,而人類的大腦中只保留了一小部分有用信息,大部分信息都被丟棄。綜合來看,計算機(jī)的語音識別和語義解讀能力與人類相比,還有很大的一段差距,但是沃森的出現(xiàn),讓我們相信人類與計算機(jī)交流的夢想并不會太遙遠(yuǎn)。