仿生系列6--人機(jī)交流
導(dǎo)言:機(jī)器可以翻譯的語音命令越來越多。但是與人類大腦相比,人工智能計(jì)算機(jī)可以更好地理解語言信息嗎?
人類用了上千年的時(shí)間,才學(xué)會(huì)使用語言,然而計(jì)算機(jī)只花費(fèi)了50年的時(shí)間就在語音識(shí)別和語義解讀技術(shù)上取得了令人刮目相看的成就。IBM公司開發(fā)的超級計(jì)算機(jī)沃森(Watson)可以“理解”比較復(fù)雜的語言含義,是目前世界上最智能的計(jì)算機(jī)系統(tǒng)之一。它的實(shí)力在今年2月份得到了驗(yàn)證——成功挑戰(zhàn)美國王牌智力問答節(jié)目《危險(xiǎn)邊緣》中的人類高手,沒費(fèi)多少力氣就拿下了冠軍。這件事一度引起了轟動(dòng),因?yàn)閷φZ言的理解過程是人類大腦中最復(fù)雜的處理過程。但是,沃森真的理解了人類的語言嗎?或者它只是“回想”起了存儲(chǔ)在硬盤里的標(biāo)準(zhǔn)化答案。
在語音識(shí)別的過程中,人類與計(jì)算機(jī)的相似性超出大多數(shù)人的想象。然而,在解讀語言信息時(shí)的決定性因素卻不相同,因?yàn)樽顝?fù)雜的計(jì)算機(jī)也只能按指令執(zhí)行計(jì)算,但是人類大腦常常是發(fā)散的,它可以理解錯(cuò)綜復(fù)雜的信息。
識(shí)別:接收和分析語言
現(xiàn)在,抓取人類語音對于計(jì)算機(jī)而言難度并不大,比如售價(jià)100歐元的Dragon Naturally Speaking語音識(shí)別程序就可以非常出色地識(shí)別人類語音。語音識(shí)別的過程需要將“抓取”到聲音中的字詞與句子整合在一起,然后通過非常復(fù)雜的系統(tǒng)才能識(shí)別出語音的內(nèi)容。為了正確地識(shí)別語言,首先要將識(shí)別出的語音轉(zhuǎn)換為數(shù)字信號(hào)。在這個(gè)過程中,語言識(shí)別系統(tǒng)必須過濾掉所有的背景噪音才可以處理真正的聲音。這是非常重要的一步,如果計(jì)算機(jī)將所有的聲音和噪音混合在一起,就無法理解真正需要的那句話了。
其實(shí),人類的大腦也采用相同的識(shí)別模式,必須將聲波轉(zhuǎn)換成電信號(hào),然后過濾掉噪音。然而,人類大腦對聲音的識(shí)別過程又遠(yuǎn)比計(jì)算機(jī)“聰明”,當(dāng)我們處在幾個(gè)人同時(shí)講話的嘈雜環(huán)境中時(shí),耳朵會(huì)選擇性地直接屏蔽掉低于15dB的噪音,使大腦可以順利追蹤到其中一個(gè)人的聲音,與之順利交談(雞尾酒效應(yīng))。但是,計(jì)算機(jī)在這種環(huán)境下無法進(jìn)行準(zhǔn)確的區(qū)分,這是因?yàn)橛?jì)算機(jī)對每個(gè)語音信號(hào)都采取同樣的處理方式,過濾器在嘈雜的環(huán)境中無能為力。
人類和計(jì)算機(jī)在處理過濾后的語音信號(hào)之前,都需要生成有效聲音的頻譜。對于人類而言,這個(gè)處理過程由耳朵完成;對于計(jì)算機(jī)而言,首先通過“快速傅里葉變換”將信號(hào)轉(zhuǎn)換為頻譜,然后頻譜經(jīng)過“隱馬爾可夫模型”轉(zhuǎn)換為音節(jié),最后組成有意義的詞語和句子。計(jì)算機(jī)需要運(yùn)用語音數(shù)據(jù)庫、語法模型庫和例句庫來區(qū)別同音字詞,例如“神馬”和“什么”、“閱讀”和“悅讀”等,驗(yàn)證這些語音在句子結(jié)構(gòu)中代表的真實(shí)含義。
目前最先進(jìn)的語音識(shí)別程序可以識(shí)別出大約98%的語言信息,無法識(shí)別的部分,用戶可以通過人工手動(dòng)糾正。雖然取得了如此好的成就,但是軟件仍然在識(shí)別方言和俚語的時(shí)候很難保證其準(zhǔn)確性。因?yàn)榕c人類相比,計(jì)算機(jī)只能執(zhí)行指令,將聲音頻率化,無法靈活地判斷講話者的情緒信息、動(dòng)作信息等。
解讀:語言在上下文中的含義
語音識(shí)別方面的很多問題可以通過更大的語音數(shù)據(jù)庫來解決。但是在理解人類的語言方面,計(jì)算機(jī)程序還面臨著許多基本性的問題。由于計(jì)算機(jī)沒有意識(shí),所以只能依靠更復(fù)雜的規(guī)則來增強(qiáng)自己的語言理解能力,解讀聽到的語音含義。
在理解人類語言方面,計(jì)算機(jī)將希望寄托在語義網(wǎng)絡(luò)上,語義網(wǎng)絡(luò)由頂點(diǎn)和邊組成,其中,頂點(diǎn)代表的是概念,而邊則表示的是這些概念之間的語義關(guān)系。它可以回答諸如“今天北京朝陽區(qū)的氣溫是多少?”這樣的問題。在這個(gè)例子中,詞語“今天”對應(yīng)著時(shí)間,“北京朝陽區(qū)”對應(yīng)著地點(diǎn),頂點(diǎn)之間的關(guān)聯(lián)(邊)就是“氣溫”。這就是為什么有了邊對頂點(diǎn)的限制,計(jì)算機(jī)就可能根據(jù)上下文來識(shí)別屋子里的“Windows(窗戶)”與微軟著名的操作系統(tǒng)“Windows(軟件)”的不同,識(shí)別可以吃的水果“Apple”與美國蘋果公司“Apple”的區(qū)別。
可以肯定的是,在有標(biāo)準(zhǔn)答案的問題上,計(jì)算機(jī)的能力遠(yuǎn)比人類更強(qiáng)大,這一點(diǎn)已經(jīng)被新的《危險(xiǎn)游戲》王者——超級計(jì)算機(jī)沃森證明,沃森可以訪問由百科全書和詞典等組成的大約100GB的純文本資料庫。為了增加答案的準(zhǔn)確性,沃森同時(shí)采用幾百種算法進(jìn)行運(yùn)算。在最后的分析過程中,沃森顯示的答案都是經(jīng)過一些高級人工智能的算法,將所聽到的詞語(頂點(diǎn))與詞語之間的關(guān)聯(lián)(邊),通過邏輯命令計(jì)算出來的。
此外,沃森還具有自學(xué)習(xí)的能力,它可以存儲(chǔ)新的知識(shí),并且與已經(jīng)存在的概念關(guān)聯(lián)起來形成更強(qiáng)大的語義網(wǎng)數(shù)據(jù)庫。我們可以將沃森視為高智商的大師嗎?顯然不能,因?yàn)槲稚荒茏龅秸{(diào)用概念,并找出答案之間的關(guān)系而已,換句話說它并不能理解任何一句模棱兩可的話。
結(jié)論
人類可以做到同時(shí)與多人交流,根據(jù)情景理解對方所講語音的含義,機(jī)器則很難做到。相比而言,人類大腦的神經(jīng)網(wǎng)絡(luò)非常復(fù)雜,關(guān)聯(lián)信息、最新事件、環(huán)境氛圍都會(huì)被納入考慮范圍,同時(shí)只會(huì)提取這些信息中的有用因素,不像計(jì)算機(jī)一樣只能盲目地保留所有細(xì)節(jié)。目前,計(jì)算機(jī)的唯一優(yōu)勢就是它的數(shù)據(jù)庫,原則上數(shù)據(jù)庫會(huì)收集、分類,并且隨時(shí)調(diào)用所有搜集到的語音信息,而人類的大腦中只保留了一小部分有用信息,大部分信息都被丟棄。綜合來看,計(jì)算機(jī)的語音識(shí)別和語義解讀能力與人類相比,還有很大的一段差距,但是沃森的出現(xiàn),讓我們相信人類與計(jì)算機(jī)交流的夢想并不會(huì)太遙遠(yuǎn)。