1、人工智能的定義
人工智能領域苦于存在多種概念和定義,有的太過有的則不夠。作為該領域創(chuàng)始人之一的Nils Nilsson先生寫到:“人工智能缺乏通用的定義。”一本如今已經(jīng)修訂三版的權威性人工智能教科書給出了八項定義,但書中并沒有透露其作者究竟傾向于哪種定義。對于我們來說,一種實用的定義即為——人工智能是對計算機系統(tǒng)如何能夠履行那些只有依靠人類智慧才能完成的任務的理論研究。例如,視覺感知、語音識別、在不確定條件下做出決策、學習、還有語言翻譯等。比起研究人類如何進行思維活動,從人類能夠完成的任務角度對人工智能進行定義,而非人類如何思考,在當今時代能夠讓我們繞開神經(jīng)機制層面對智慧進行確切定義從而直接探討它的實際應用。值得一提的是,隨著計算機為解決新任務挑戰(zhàn)而升級換代并推而廣之,人們對那些所謂需要依靠人類智慧才能解決的任務的定義門檻也越來越高。所以,人工智能的定義隨著時間而演變,這一現(xiàn)象稱之為“人工智能效應”,概括起來就是“人工智能就是要實現(xiàn)所有目前還無法不借助人類智慧才能實現(xiàn)的任務的集合。”
2、人工智能的歷史
人工智能并不是一個新名詞。實際上,這個領域在20世紀50年代就已經(jīng)開始啟動,這段探索的歷史被稱為“喧囂與渴望、挫折與失望交替出現(xiàn)的時代”——最近給出的一個較為恰當?shù)脑u價。
20世紀50年代明確了人工智能要模擬人類智慧這一大膽目標,從此研究人員開展了一系列貫穿20世紀60年代并延續(xù)到70年代的研究項目,這些項目表明,計算機能夠完成一系列所本只屬于人類能力范疇之內(nèi)的任務,例如證明定理、求解微積分、通過規(guī)劃來響應命令、履行物理動作,甚至是模擬心理學家、譜曲這樣的活動。
但是,過分簡單的算法、匱乏的難以應對不確定環(huán)境(這種情形在生活中無處不在)的理論,以及計算能力的限制嚴重阻礙了我們使用人工智能來解決更加困難和多樣的問題。伴隨著對缺乏繼續(xù)努力的失望,人工智能于20世紀70年代中期逐漸淡出公眾視野。
20世紀80年代早期,日本發(fā)起了一個項目,旨在開發(fā)一種在人工智能領域處于領先的計算機結(jié)構。西方開始擔心會在這個領域輸給日本,這種焦慮促使他們決定重新開始對人工智能的投資。20世紀80年代已經(jīng)出現(xiàn)了人工智能技術產(chǎn)品的商業(yè)供應商,其中一些已經(jīng)上市,例如Intellicorp、Symbolics、和Teknowledge。
20世紀80年代末,幾乎一半的“財富500強”都在開發(fā)或使用“專家系統(tǒng)”,這是一項通過對人類專家的問題求解能力進行建模,來模擬人類專家解決該領域問題的人工智能技術。
對于專家系統(tǒng)潛力的過高希望徹底掩蓋了它本身的局限性,包括明顯缺乏常識、難以捕捉專家的隱性知識、建造和維護大型系統(tǒng)這項工作的復雜性和成本,當這一點被越來越多的人所認識到時,人工智能研究再一次脫離軌道。
20世紀90年代在人工智能領域的技術成果始終處于低潮,成果寥寥。反而是神經(jīng)網(wǎng)絡、遺傳算法等科技得到了新的關注,這一方面是因為這些技術避免了專家系統(tǒng)的若干限制,另一方面是因為新算法讓它們運行起來更加高效。
神經(jīng)網(wǎng)絡的設計受到了大腦結(jié)構的啟發(fā)。遺傳算法的機制是,首先迭代生成備選解決方案,然后剔除最差方案,最后通過引入隨機變量來產(chǎn)生新的解決方案,從而“進化”出解決問題的最佳方案。
3、人工智能進步的催化劑
截止到21世紀前10年的后期,出現(xiàn)了一系列復興人工智能研究進程的要素,尤其是一些核心技術。下面將對這些重要的因素和技術進行詳細說明。
1)摩爾定律
在價格、體積不變的條件下,計算機的計算能力可以不斷增長。這就是被人們所熟知的摩爾定律,它以Intel共同創(chuàng)辦人Gordon Moore命名。Gordon Moore從各種形式的計算中獲利,包括人工智能研究人員使用的計算類型。數(shù)年以前,先進的系統(tǒng)設計只能在理論上成立但無法實現(xiàn),因為它所需要的計算機資源過于昂貴或者計算機無法勝任。今天,我們已經(jīng)擁有了實現(xiàn)這些設計所需要的計算資源。舉個夢幻般的例子,現(xiàn)在最新一代微處理器的性能是1971年第一代單片機的400萬倍。
2)大數(shù)據(jù)
得益于互聯(lián)網(wǎng)、社交媒體、移動設備和廉價的傳感器,這個世界產(chǎn)生的數(shù)據(jù)量急劇增加。隨著對這些數(shù)據(jù)的價值的不斷認識,用來管理和分析數(shù)據(jù)的新技術也得到了發(fā)展。大數(shù)據(jù)是人工智能發(fā)展的助推劑,這是因為有些人工智能技術使用統(tǒng)計模型來進行數(shù)據(jù)的概率推算,比如圖像、文本或者語音,通過把這些模型暴露在數(shù)據(jù)的海洋中,使它們得到不斷優(yōu)化,或者稱之為“訓練”——現(xiàn)在這樣的條件隨處可得。
3)互聯(lián)網(wǎng)和云計算
和大數(shù)據(jù)現(xiàn)象緊密相關,互聯(lián)網(wǎng)和云計算可以被認為是人工智能基石有兩個原因,第一,它們可以讓所有聯(lián)網(wǎng)的計算機設備都能獲得海量數(shù)據(jù)。這些數(shù)據(jù)是人們推進人工智能研發(fā)所需要的,因此它可以促進人工智能的發(fā)展。第二,它們?yōu)槿藗兲峁┝艘环N可行的合作方式——有時顯式有時隱式——來幫助人工智能系統(tǒng)進行訓練。比如,有些研究人員使用類似Mechanical Turk這樣基于云計算的眾包服務來雇傭成千上萬的人來描繪數(shù)字圖像。這就使得圖像識別算法可以從這些描繪中進行學習。谷歌翻譯通過分析用戶的反饋以及使用者的無償貢獻來提高它自動翻譯的質(zhì)量。
4)新算法
算法是解決一個設計程序或完成任務的路徑方法。最近幾年,新算法的發(fā)展極大提高了機器學習的能力,這些算法本身很重要,同時也是其他技術的推動者,比如計算機視覺(這項科技將會在后文描述)。機器學習算法目前被開源使用,這種情形將促成更大進步,因為在開源環(huán)境下開發(fā)人員可以補足和增強彼此的工作。
4、認知技術
我們將區(qū)分人工智能領域和由此延伸的各項技術。大眾媒體將人工智能刻畫為跟人一樣聰明的或比人更聰明的計算機的來臨。而各項技術則在以往只有人能做到的特定任務上面表現(xiàn)得越來越好。我們稱這些技術為認知技術(下圖),認知技術是人工智能領域的產(chǎn)物,它們能完成以往只有人能夠完成的任務。而它們正是商業(yè)和公共部門的領導者應該關注的。下面我們將介紹幾個最重要的認知技術,它們正被廣泛采納并進展迅速,也獲得大量投資。
1)計算機視覺
是指計算機從圖像中識別出物體、場景和活動的能力。計算機視覺技術運用由圖像處理操作及其他技術所組成的序列來將圖像分析任務分解為便于管理的小塊任務。比如,一些技術能夠從圖像中檢測到物體的邊緣及紋理。分類技術可被用作確定識別到的特征是否能夠代表系統(tǒng)已知的一類物體。
計算機視覺有著廣泛應用。其中包括,醫(yī)療成像分析被用來提高疾病的預測、診斷和治療;人臉識別被Facebook用來自動識別照片里的人物;在安防及監(jiān)控領域被用來指認嫌疑人;在購物方面,消費者現(xiàn)在可以用智能手機拍攝下產(chǎn)品以獲得更多購買選擇。
機器視覺作為一個相關學科,泛指在工業(yè)自動化領域的視覺應用。在這些應用里,計算機在高度受限的工廠環(huán)境里識別諸如生產(chǎn)零件一類的物體,因此相對于尋求在非受限環(huán)境里操作的計算機視覺來說目標更為簡單。計算機視覺是一個正在進行中的研究,而機器視覺則是“已經(jīng)解決的問題”,是系統(tǒng)工程方面的課題而非研究層面的課題。因為應用范圍的持續(xù)擴大,計算機視覺領域的初創(chuàng)公司自2011年起已經(jīng)吸引了數(shù)億美元的風投資本。
2)機器學習
指的是計算機系統(tǒng)無需遵照顯式的程序指令而只是依靠暴露在數(shù)據(jù)中來提升自身性能的能力。其核心在于,機器學習是從數(shù)據(jù)中自動發(fā)現(xiàn)模式,模式一旦被發(fā)現(xiàn)便可用于做預測。比如,給予機器學習系統(tǒng)一個關于交易時間、商家、地點、價格及交易是否正當?shù)刃庞每ń灰仔畔⒌臄?shù)據(jù)庫,系統(tǒng)就會學習到可用來預測信用卡欺詐的模式。處理的交易數(shù)據(jù)越多,預測就會越好。
機器學習的應用范圍非常廣泛,針對那些產(chǎn)生龐大數(shù)據(jù)的活動,它幾乎擁有改進一切性能的潛力。除了欺詐甄別之外,這些活動還包括銷售預測、庫存管理、石油和天然氣勘探、以及公共衛(wèi)生。機器學習技術在其他的認知技術領域也扮演著重要角色,比如計算機視覺,它能在海量圖像中通過不斷訓練和改進視覺模型來提高其識別對象的能力?,F(xiàn)如今,機器學習已經(jīng)成為認知技術中最炙手可熱的研究領域之一,在2011-2014年中這段時間內(nèi)就已吸引了近十億美元的風險投資。谷歌也在2014年斥資4億美金收購Deepmind這家研究機器學習技術的公司。
3)自然語言處理
是指計算機擁有的人類般文本處理的能力,比如,從文本中提取意義,甚至從那些可讀的、風格自然、語法正確的文本中自主解讀出含義。一個自然語言處理系統(tǒng)并不了解人類處理文本的方式,但是它卻可以用非常復雜與成熟的手段巧妙處理文本,例如自動識別一份文檔中所有被提及的人與地點;識別文檔的核心議題;或者在一堆僅人類可讀的合同中,將各種條款與條件提取出來并制作成表。以上這些任務通過傳統(tǒng)的文本處理軟件根本不可能完成,后者僅能針對簡單的文本匹配與模式進行操作。請思考一個老生常談的例子,它可以體現(xiàn)自然語言處理面臨的一個挑戰(zhàn)。在句子“光陰似箭(Time flies like an arrow)”中每一個單詞的意義看起來都很清晰,直到系統(tǒng)遇到這樣的句子“果蠅喜歡香蕉(Fruit flies like a banana)”,用“水果(fruit)”替代了“時間(time)”,并用“香蕉(banana)”替代“箭(arrow)”,就改變了“飛逝/飛著的(like)”與“像/喜歡(like)”這兩個單詞的意思。
自然語言處理,像計算機視覺技術一樣,將各種有助于實現(xiàn)目標的多種技術進行了融合。建立語言模型來預測語言表達的概率分布,舉例來說,就是某一串給定字符或單詞表達某一特定語義的最大可能性。選定的特征可以和文中的某些元素結(jié)合來識別一段文字,通過識別這些元素可以把某類文字同其他文字區(qū)別開來,比如垃圾郵件同正常郵件。以機器學習為驅(qū)動的分類方法將成為篩選的標準,用來決定一封郵件是否屬于垃圾郵件。
因為語境對于理解“time flies(時光飛逝)”和“fruit flies(果蠅)”的區(qū)別是如此重要,所以自然語言處理技術的實際應用領域相對較窄,這些領域包括分析顧客對某項特定產(chǎn)品和服務的反饋、自動發(fā)現(xiàn)民事訴訟或政府調(diào)查中的某些含義、以及自動書寫諸如企業(yè)營收和體育運動的公式化范文等。
4)機器人技術
將機器視覺、自動規(guī)劃等認知技術整合至極小卻高性能的傳感器、致動器、以及設計巧妙的硬件中,這就催生了新一代的機器人,它有能力與人類一起工作,能在各種未知環(huán)境中靈活處理不同的任務。例如無人機,還有可以在車間為人類分擔工作的“cobots”,還包括那些從玩具到家務助手的消費類產(chǎn)品。
5)語音識別技術
主要是關注自動且準確的轉(zhuǎn)錄人類的語音。該技術必須面對一些與自然語言處理類似的問題,在不同口音的處理、背景噪音、區(qū)分同音異形異義詞(“buy”和“by”聽起來是一樣的)方面存在一些困難,同時還需要具有跟上正常語速的工作速度。語音識別系統(tǒng)使用一些與自然語言處理系統(tǒng)相同的技術,再輔以其他技術,比如描述聲音和其出現(xiàn)在特定序列和語言中概率的聲學模型等。語音識別的主要應用包括醫(yī)療聽寫、語音書寫、電腦系統(tǒng)聲控、電話客服等。比如Domino’s Pizza最近推出了一個允許用戶通過語音下單的移動APP。
上面提到的認知技術進步飛快并吸引了大量投資,其他相對成熟的認知技術仍然是企業(yè)軟件系統(tǒng)的重要組成部分。這些日漸成熟的認知技術包括決策最優(yōu)化——自動完成對復雜決策或者在資源有限的前提下做出最佳權衡;規(guī)劃和調(diào)度——使設計一系列行動流程來滿足目標和觀察約束;規(guī)則導向系統(tǒng)——為專家系統(tǒng)提供基礎的技術,使用知識和規(guī)則的數(shù)據(jù)庫來自動完成從信息中進行推論的處理過程。
認知技術的廣泛使用
各種經(jīng)濟部門已經(jīng)把認知技術運用到了多種商業(yè)職能中。
1)銀行業(yè)
自動欺詐探測系統(tǒng)使用機器學習可以識別出預示著欺詐性付款行動的行為模式;借助語音識別技術能夠自動完成電話客服;聲音識別可以核實來電者的身份
2)醫(yī)療健康領域
美國有一半的醫(yī)院采用自動語音識別來幫助醫(yī)生自動完成醫(yī)囑抄錄,而且使用率還在迅速增長;機器視覺系統(tǒng)自動完成乳房X光檢查和其他醫(yī)學影響的分析;IBM的Watson借助自然語言處理技術來閱讀和理解大量醫(yī)學文獻,通過假設自動生成來完成自動診斷,借助機器學習可以提高準確率。
3)生命科學領域
機器學習系統(tǒng)被用來預測生物數(shù)據(jù)和化合物活動的因果關系,從而幫助制藥公司識別出最有前景的藥物。
4)媒體與娛樂行業(yè)
許多公司正在使用數(shù)據(jù)分析和自然語言生成技術,自動起草基于數(shù)據(jù)的的公文材料,比如公司營收狀況、體育賽事綜述等。
5)石油與天然氣
廠商將機器學習廣泛運用在礦藏資源定位、鉆井設備故障診斷等眾多方面。
6)公共部門
出于監(jiān)控、合規(guī)和欺詐檢測等特定目的,公共部門也已經(jīng)開始使用認知技術。比如,喬治亞州正在通過眾包的形式來進行財政披露和競選捐助表格的數(shù)字化,在這個過程中他們就采用了一套自動手寫識別系統(tǒng)。
7)零售商
零售商利用機器學習來自動發(fā)現(xiàn)有吸引力的交叉銷售定價和有效的促銷活動。
8)科技公司
它們正利用機器視覺、機器學習等認知技術來改進產(chǎn)品或者開發(fā)全新產(chǎn)品,比如Roomba機器人吸塵器,Nest智能恒溫器。
上述例子表明,認識技術的潛在商業(yè)收益遠大于自動化帶來的成本節(jié)約,這主要體現(xiàn)在:
更快的行動與決策(比如,自動欺詐檢測,計劃和調(diào)度)
更好的結(jié)果(比如,醫(yī)學診斷、石油探測、需求預測)
更高的效率(亦即,更好的利用高技能人才和昂貴設備),
更低的成本(比如,自動電話客服減少了勞動成本)
更大的規(guī)模(亦即,開展人力無法執(zhí)行的大規(guī)模任務)
產(chǎn)品與服務創(chuàng)新(從增加新功能到創(chuàng)造新產(chǎn)品)
認知技術影響力與日俱增的原因
在未來五年,認知技術在商業(yè)領域的影響力將顯著增長。原因有二,首先,近些年來,技術性能有了實質(zhì)進步,并處于持續(xù)研發(fā)狀態(tài)。其次,數(shù)億美元已經(jīng)投入到技術商業(yè)化中,許多公司正致力于為各商業(yè)部門的廣泛需求提供定制化開發(fā)和打包方案,以使這些技術更易購買和配置。雖然并非所有的技術提供商都能幸存,但他們的努力將共同推動市場前進。技術性能的改善和商業(yè)化正在共同擴大著認知技術的應用范圍,這種情況在未來幾年都將持續(xù)下去。
1、技術提升擴展了應用范圍
認知技術大踏步前進的例子非常多。比如Google的語音識別系統(tǒng),一份報告顯示,Google用了不到兩年時間就將語音識別的精準度從2012年的84%提升到如今的98%。計算機視覺技術也取得了突飛猛進的發(fā)展。如果以計算機視覺技術研究者設置的技術標準來看,自2010年到2014年,圖像分類識別的精準度提高了4倍。Facebook的DeepFace技術在同行評審報告(譯者注:同行評審,是一種學術成果審查程序,即一位作者的學術著作或計劃被同一領域的其他專家學者評審。)被高度肯定,其臉部識別率的準確度達到97%。2011年,IBM為了讓Watson在智力節(jié)目《危險邊緣》中獲勝,曾對Watson進行優(yōu)化,提升兩倍的答案精確度?,F(xiàn)在,IBM又宣稱如今的Watson比當時“智能”了2400%。
隨著技術的改進和提高,技術應用的范圍也在不斷擴大。比如,在語音識別方面,機器曾經(jīng)需要大量訓練才能在有限詞庫里勉強識別出來,由語音識別技術延伸出的醫(yī)療應用程序也很難得到真正普及。而現(xiàn)在,每個月互聯(lián)網(wǎng)上都會有數(shù)以百萬次的語音搜索。另外,計算機視覺技術過去被狹隘的理解為部署在工業(yè)自動化方面,但現(xiàn)在,我們早已看到這一技術被廣泛運用到監(jiān)控、安全以及各種各樣的消費應用里。IBM如今正拓展Watson在競賽游戲之外的應用,從醫(yī)療診斷到醫(yī)學研究再到財務建議以及自動化的呼叫中心。
并不是所有的認知技術都有如此令人矚目的發(fā)展。機器翻譯有了一定發(fā)展,但幅度很小。一份調(diào)查發(fā)現(xiàn),從2009年到2012年,將阿拉伯語翻譯到英語的精確度僅僅提升了13%。盡管這些技術還不完美,但他們已經(jīng)可以影響到專業(yè)機構的工作方式。很多專業(yè)翻譯人員依靠機器翻譯提升翻譯精準度,并把一些常規(guī)翻譯交給機器,自己專注在更具挑戰(zhàn)性的任務上。
很多公司正努力將認知技術做進一步研發(fā),并逐步將其融入到更多產(chǎn)品尤其是企業(yè)級產(chǎn)品里,以方便企業(yè)用戶購買和部署。
2、對商業(yè)化進行的大規(guī)模投資
從2011年到2014年5月,超過20億美元的風險投資流入到基于認知技術研究的產(chǎn)品和服務里。與此同時,超過100家的相關公司被兼并或收購,其中一些被互聯(lián)網(wǎng)巨頭如亞馬遜、蘋果、Google、IBM或Facebook收購。所有這些投資都在培育一個多樣化的公司圖譜,這些公司正在加速認知技術的商業(yè)化進程。
在這里,我們并不會提供關于某公司在認知技術商業(yè)化方面的細節(jié),我們希望說明,認知技術產(chǎn)品擁有豐富的多樣性。下面就是致力于認知技術商業(yè)化的公司名單,這個名單既不是完整無缺也非固定不變,而是一個動態(tài)的,用于推動和培育市場的指標。
數(shù)據(jù)管理和分析工具主要使用自然語言處理、機器學習等認知技術。這些工具利用自然語言處理來從非結(jié)構化的文本中提取出意思,或者借助機器學習幫助分析人員從大規(guī)模數(shù)據(jù)集中發(fā)現(xiàn)深層含義。這個領域的公司包括Context Relevant(譯者注:美國的一家大數(shù)據(jù)挖掘和分析公司)、Palantir Technologies(譯者注:這家公司稱要將數(shù)據(jù)、技術、人類和環(huán)境連接起來)、以及Skytree(譯者注:一家借助機器學習進行市場分析并提供決策依據(jù)的大數(shù)據(jù)公司)。
認知技術的各個部分可以被整合到各種應用和商業(yè)決策中,分別起到增加功能和提高效率的作用。例如,Wise.io公司提供一套模塊來促進商業(yè)決策,比如客戶支持、營銷和銷售,這里面會用到機器學習模型來預測哪些客戶比較容易流失,以及哪些潛在客戶更加容易轉(zhuǎn)化。Nuance公司通過提供一種語音識別技術來幫助開發(fā)者進行需要語音控制的移動APP的開發(fā)。
單點解決方案。眾多認知技術成熟的標志是它們正在被不斷的嵌入到特定商業(yè)問題的解決方案中。這些解決方案的設計初衷是要比公司原有的解決方案更加有效,并且?guī)缀醪恍枰J知技術方面的專業(yè)人員。普及度比較高的應用領域包括廣告、營銷和銷售自動化、預測以及規(guī)劃。
技術平臺。平臺的目的是為建立高度定制化的商業(yè)解決方案提供基礎。它們會提供一系列功能,包括數(shù)據(jù)管理、機器學習工具、自然語言處理、知識表示和推理、以及將這些定制化軟件整合在一起的統(tǒng)一框架。
3、新興應用
如果這些技術的表現(xiàn)和商業(yè)化趨勢繼續(xù)發(fā)展,我們就能夠大膽預測認知技術的應用將更加廣泛,被接受程度也會大大增加。數(shù)億美金的投資涌入這些基于機器學習、自然語言處理、機器視覺或者機器人技術的公司,這預示著許多新應用即將投入市場。在商業(yè)機構依托認知技術構建自動化業(yè)務流程、增強產(chǎn)品和服務方面,我們也看到了巨大空間。
認知技術在企業(yè)的應用路徑
認知技術將在接下來幾年里變得流行。在未來2-5年,技術層面的進步和商業(yè)化將擴大認知技術對企業(yè)的影響。越來越多的企業(yè)會找到一些創(chuàng)新性應用來顯著改善他們自身的表現(xiàn)或者創(chuàng)造新功能,以增強他們的競爭地位。企業(yè)的IT部門現(xiàn)在可以行動起來,增加對這些技術的了解,評估出適用這些技術的機會,將這些技術可能帶來的價值向領導進行匯報。高級商務和公共部門的領導應該思考認知技術將對他們的部門以及整個公司產(chǎn)生何種影響,這些技術將如何激發(fā)創(chuàng)新并提升經(jīng)營表現(xiàn)。