6月7日,成都高新造人工智能系統(tǒng)“準(zhǔn)星數(shù)學(xué)高考機(jī)器人”AI-MATHS對(duì)2017高考數(shù)學(xué)科目發(fā)起了挑戰(zhàn)。整個(gè)過程是嚴(yán)格按照斷網(wǎng)、斷庫、自然語言理解、綜合復(fù)雜推理等嚴(yán)格流程進(jìn)行的公開透明測(cè)試。經(jīng)過2小時(shí)緊張的解題、等待、評(píng)分后,AI-MATHS此次模擬高考成績(jī)?yōu)椋?017年高考北京文科數(shù)學(xué)卷獲得105分,用時(shí)22分鐘;2017年高考文科全國卷II獲得100分,用時(shí)10分鐘,兩份考卷對(duì)比2017年2月中期評(píng)測(cè)的基礎(chǔ)上均有大幅提升。
“AI-MATHS”之父林輝這孩子解題容易讀題難
兩次考試具體得分如下:北京文科數(shù)學(xué)卷,選擇題滿分、填空題20分、解答題45分,全卷105分;全國卷二選擇題55分、填空題20分,解答題25,全卷100分。在選擇題和填空題上,“AI-MATHS”表現(xiàn)十分亮眼。丟分環(huán)節(jié)主要是解答題,有些題目甚至是0分。
“家長(zhǎng)”林輝說,其實(shí)能考到這么多分,已經(jīng)證明,“這孩子前幾個(gè)月的書沒白讀。”但是他也提到了“自家孩子”在答題的一個(gè)弱點(diǎn),“看不懂題。”研發(fā)高考機(jī)器人最大的難點(diǎn)在于,要讓系統(tǒng)準(zhǔn)確理解人類語言。“直接用數(shù)學(xué)語言表述的應(yīng)用題它可以輕松解答,但它最大的弱項(xiàng)是不能理解考題里場(chǎng)景式的描述語言,它會(huì)讀不懂題目。”
高考數(shù)學(xué)機(jī)器人為何會(huì)讀不懂題目?對(duì)于這個(gè)問題,林輝打了個(gè)比方,如果題目是10-1=?人工智能系統(tǒng)可以輕松作答。但如果題目用了場(chǎng)景描寫將其表述為“小明有10個(gè)蘋果,小麗吃了一個(gè),請(qǐng)問還有幾個(gè)蘋果?”面對(duì)這樣的情況,人工智能系統(tǒng)就“傻”了,“它不理解小明是什么、小麗是什么、吃又是什么意思。”
實(shí)際上,為了“AI-MATHS”迅速克服這解題的弱點(diǎn),準(zhǔn)星云學(xué)科研團(tuán)隊(duì)此前對(duì)“AI-MATHS”已進(jìn)行了500套試卷、12000道題目的魔鬼式訓(xùn)練。
閱卷老師祁祖海“處于本班學(xué)生的中等水平”
成都七中林蔭校區(qū)高級(jí)教師祁祖海是負(fù)責(zé)此次評(píng)閱試卷的三名老師之一,他分析,在評(píng)卷過程中,“AI-MATHS”所犯錯(cuò)誤的題目都有一個(gè)共同點(diǎn):語言文字太多。這表示,高考機(jī)器人在自然語言上的理解稍稍欠缺。相反,在理解數(shù)學(xué)語言上相對(duì)容易。
根據(jù)自身的教學(xué)經(jīng)驗(yàn),祁祖海認(rèn)為,一般學(xué)生的成績(jī)大約在110分左右,而這次“AI-MATHS”取得的分?jǐn)?shù),大概處于本班學(xué)生的中等水平。但是他坦言,高考機(jī)器人的進(jìn)步空間會(huì)很大。如北京考試卷中有一道立體幾何的證明題,機(jī)器人選擇的解題思路與大多數(shù)學(xué)生選擇的不同,卻依然解答正確,這在思路上有所創(chuàng)新。
而“AI-MATHS”未能完成的題中,有一道概率統(tǒng)計(jì)文字題,普通學(xué)生需要將自然語言轉(zhuǎn)換成數(shù)學(xué)題,將圖表信息轉(zhuǎn)換成數(shù)學(xué)信息處理。祁祖海估計(jì),機(jī)器人在信息挖掘和語言理解上稍差,相反,在證明題上表現(xiàn)優(yōu)異。