替代圖靈測(cè)試?讓人工智能參加數(shù)學(xué)和科學(xué)考試
這篇論文提供了一個(gè)思考人工智能的新視角。在衡量人工智能上,圖靈測(cè)試(Turing test)已經(jīng)被證明是一種不足實(shí)用的方法。所以現(xiàn)在標(biāo)準(zhǔn)化的數(shù)學(xué)和科學(xué)考試(standardized math and science tests)已經(jīng)被視為了一種可用于衡量人工智能的方法。該論文的目的是概述能通過(guò)標(biāo)準(zhǔn)化數(shù)學(xué)和科學(xué)考試的機(jī)器的制作方法。
1. 引言
該論文的作者首先指出,對(duì)于人類,我們可以通過(guò)我們給出的相關(guān)問(wèn)題的答案來(lái)進(jìn)行評(píng)價(jià)。但我們不能使用同樣的標(biāo)準(zhǔn)來(lái)評(píng)價(jià)機(jī)器。由阿蘭·圖靈在 1950 年提出的圖靈測(cè)試 [1] 的評(píng)價(jià)方式是看機(jī)器能否表現(xiàn)出與人類無(wú)法區(qū)分的對(duì)話行為。而在今天,Clark 和 Etzioni [2] 提出可使用數(shù)學(xué)和科學(xué)的標(biāo)準(zhǔn)化考試作為評(píng)價(jià)機(jī)器智能的適當(dāng)方法。這篇論文給出了一個(gè)簡(jiǎn)要介紹,讓我們可以了解可如何訓(xùn)練機(jī)器來(lái)解決數(shù)學(xué)和科學(xué)問(wèn)題。
2. 問(wèn)答和數(shù)學(xué)/科學(xué)領(lǐng)域
問(wèn)答(QA)是一種需要機(jī)器為問(wèn)題生成答案的任務(wù),其中問(wèn)題和答案都是自然語(yǔ)言?,F(xiàn)代問(wèn)答系統(tǒng)主要基于兩種范式。
一種是基于文本的問(wèn)答(text-based QA),其依賴于大量文本。首先,它會(huì)通過(guò)信息檢索方法來(lái)檢索包含了答案的文檔,然后其會(huì)從文本中提取出候選答案并對(duì)這些答案進(jìn)行排名。
另一種是基于知識(shí)的問(wèn)答(knowledge based QA),這種方法會(huì)創(chuàng)建問(wèn)題的語(yǔ)義表征(semantic representation),然后將其用于查詢事實(shí)數(shù)據(jù)庫(kù)(databases of facts)。
在科學(xué)和數(shù)學(xué)問(wèn)題上的問(wèn)答還面臨著額外的獨(dú)特難題,因?yàn)榻鉀Q這些問(wèn)題既需要對(duì)問(wèn)題有很好的理解,還需要將問(wèn)題的內(nèi)在表征包含進(jìn)來(lái)。此外,它往往需要執(zhí)行符號(hào)計(jì)算 [2]。通過(guò)信息檢索或基于知識(shí)的方法,這個(gè)問(wèn)題無(wú)法得到輕松的解決。
3. 用于科學(xué)的問(wèn)答
標(biāo)準(zhǔn)化考試中的科學(xué)問(wèn)題主要包含三類:基本事實(shí)檢索、推理和世界知識(shí)、圖表。這個(gè)問(wèn)答任務(wù)所用的數(shù)據(jù)集是 New York Regents Science Exams (NYSED) [3]。
3.1 數(shù)據(jù)集
該論文提供了一些測(cè)試和答案的示例。
1. 下面哪種物體是最優(yōu)良的電導(dǎo)體?
(A)蠟筆(B)塑料勺子(C)橡皮擦(D)鐵釘
2. 風(fēng)或水所導(dǎo)致的土壤運(yùn)動(dòng)被稱為:
(A)冷凝(B)蒸發(fā)(C)侵蝕(D)摩擦
這些問(wèn)題可以通過(guò)基于信息檢索的問(wèn)答系統(tǒng)解決。
1. 下面哪個(gè)例子描述了生物在獲取養(yǎng)分?
A)一只狗在掩埋骨頭(B)一個(gè)女孩在吃蘋(píng)果(C)一只昆蟲(chóng)在樹(shù)葉上爬行(D)一個(gè)男孩在花園里種植番茄
通過(guò)基于已知事實(shí)的簡(jiǎn)單推理可以得到這個(gè)問(wèn)題的答案。機(jī)器應(yīng)當(dāng)知道「吃」涉及到「獲取養(yǎng)分」,而蘋(píng)果包含養(yǎng)分。
1. 一個(gè)騎自行車的學(xué)生觀察到在平滑的道路上比在不平整的道路上騎得快,這是因?yàn)槠交牡缆酚?
(A)更小的重力(B)更大的重力(C)更小的摩擦力(D)更大的摩擦力
對(duì)于這個(gè)問(wèn)題,機(jī)器應(yīng)該具備更深度的知識(shí)和更好的語(yǔ)言能力。比如,「騎自行車」意味著在移動(dòng),然后按路徑推理。
1. 圖 1 中哪個(gè)字母指示的植物結(jié)構(gòu)可以吸收水和養(yǎng)分?
3.2 模型
人們采用了多種方法來(lái)解決這個(gè)問(wèn)題。這篇論文展示了兩種方法。
參考文獻(xiàn) [4] 提出了一種使用整數(shù)線性規(guī)劃(ILP/ Integer Linear Programming)的方法。其中,問(wèn)答問(wèn)題基于半結(jié)構(gòu)化的知識(shí)(structured knowledge)而被形式化所需的支持圖(Support Graph),這最終會(huì)變成 ILP。這個(gè)系統(tǒng)如圖 2 所示。
圖 2:TableILP 會(huì)搜索將問(wèn)題和答案連接起來(lái)的最佳的支持圖(推理鏈)。這個(gè)例子的問(wèn)題是:紐約州的哪個(gè)月白天持續(xù)時(shí)間最長(zhǎng)?答案是:六月。
參考文獻(xiàn) [5] 使用了一個(gè)解算器集合(ensemble of solvers)來(lái)在不同的層解決問(wèn)題。這些層如圖 3 所示,該系統(tǒng)包含了信息檢索解算器、點(diǎn)互信息解算器(Pointwise Mutual Information solver)、支持向量機(jī)解算器、RULE 解算器(其中包含人工編碼的規(guī)則)和整數(shù)線性規(guī)劃。這個(gè)系統(tǒng)被稱為 ARISTO,并且實(shí)現(xiàn)了當(dāng)前最佳。
圖 3:Aristo 使用了五個(gè)解算器來(lái)回答多選問(wèn)題,其中每一個(gè)都使用了不同類型的知識(shí)
4. 用于數(shù)學(xué)的問(wèn)答
信息檢索系統(tǒng)不能解決數(shù)學(xué)問(wèn)題。為了解決數(shù)學(xué)問(wèn)題(尤其是算術(shù)問(wèn)題),系統(tǒng)需要理解該問(wèn)題,并且構(gòu)造一個(gè)等式來(lái)進(jìn)行計(jì)算。幾何問(wèn)題由于依賴圖表而有所困難。
4.1 數(shù)據(jù)集
與 3.1 部分類似,本論文提供了標(biāo)準(zhǔn)化考試中的樣本并給出了相應(yīng)的解答。其中幾何使用了來(lái)自 SAT 的問(wèn)題,其它問(wèn)題則來(lái)自 NYSED。
1.Molly 擁有 Wafting Pie 公司。今天早上,她的員工使用了 816 個(gè)雞蛋來(lái)烤南瓜餅。如果她的員工今天總共使用了 1339 個(gè)雞蛋,那么他們下午使用了多少個(gè)雞蛋?
2.Sara 的高中今年贏了 5 場(chǎng)籃球賽,輸了 3 場(chǎng)。他們今年總共比賽了幾場(chǎng)?
3.John 有 8 個(gè)橙色氣球,但是丟掉了 2 個(gè)。John 現(xiàn)在有多少個(gè)橙色氣球?
語(yǔ)言處理是必需的,而且后兩者還需要世界建模(world modeling)。
在圖 4 中,機(jī)器應(yīng)該理解算術(shù)和圖表推理(diagrammatic reasoning)。
圖 4:如圖所示,AB 與圓 O 相交于 D,AC 與圓 O 相交于 E,AE=4,AC=24,AB=16。求 AD。
4.2 模型
論文中給出了四種方法。一是簡(jiǎn)單的動(dòng)詞分類(verb categorization),旨在解決代數(shù)詞問(wèn)題。該模型如圖 6 所示,我們可以看到該模型會(huì)提取出問(wèn)題中的動(dòng)詞,然后基于動(dòng)詞類別來(lái)構(gòu)建等式。
圖 6:動(dòng)詞分類
另一個(gè)系統(tǒng)被稱為 ALGES,使用了整數(shù)線性規(guī)劃(ILP)來(lái)將詞問(wèn)題映射到一個(gè)等式樹(shù)中,而且更加復(fù)雜。如圖 5 所示。
圖 5:用于詞問(wèn)題及其 Qsets 的學(xué)習(xí)過(guò)程的概覽
第三個(gè)模型則試圖解決幾何圖表問(wèn)題。它是在參考文獻(xiàn) [6] 中提出的。它使用了三個(gè)步驟來(lái)將文本和幾何圖表對(duì)齊:
1)選取最大化像素覆蓋(pixel coverage)的元素并識(shí)別圖中的圖元(primitive);
2)使用圖元和文本元素之間的協(xié)議;
3)最大化元素的一致性(coherence)。
在圖 7 中,對(duì)齊(alignment)是由系統(tǒng)實(shí)現(xiàn)的。
圖 7:圖表理解:識(shí)別圖中的視覺(jué)元素,并將它們與提及的文本對(duì)齊。視覺(jué)元素和它們對(duì)應(yīng)的文本提及按不同顏色編碼。這幅圖加了顏色最好看。
最后一個(gè)模型被用于解決幾何圖表問(wèn)題,其是在參考文獻(xiàn) [7] 中提出的。其遵循兩個(gè)步驟:1)使用了第三個(gè)模型和語(yǔ)言處理來(lái)將圖表和問(wèn)題轉(zhuǎn)換成邏輯表達(dá)式;2)使用了可滿足性解算器(satisfiability solver)來(lái)推導(dǎo)答案。這些步驟可見(jiàn)圖 8.
圖 8:我們用于求解幾何問(wèn)題的方法概述
5. 結(jié)論
當(dāng)前最佳的方法還不能很好地解決標(biāo)準(zhǔn)化考試。未來(lái)將會(huì)有更多方法完成標(biāo)準(zhǔn)化的數(shù)學(xué)和科學(xué)問(wèn)題。即使機(jī)器通過(guò)了這些測(cè)試,我們?nèi)匀徊荒苷f(shuō)它是智能的(intelligent)。但是人工智能通過(guò)數(shù)學(xué)和科學(xué)標(biāo)準(zhǔn)化考試將會(huì)成為人工智能歷史上的一個(gè)里程碑事件。
6. 參考文獻(xiàn)
[1] Turing, Alan M.「Computing machinery and intelligence.」Mind 59.236 (1950): 433-460.
[2] Clark, Peter, and Oren Etzioni.「My Computer Is an Honor Student-but How Intelligent Is It? Standardized Tests as a Measure of AI.」AI Magazine 37.1 (2016): 5-12.
[3] NYSED. 2014. New York Regents Science Exams. http://www.nysedregents.org/.
[4] Koncel-Kedziorski, Rik, et al.「Parsing Algebraic Word Problems into Equations.」TACL 3 (2015): 585-597.
[5] Schoenick, Carissa, et al.「Moving Beyond the Turing Test with the Allen AI Science Challenge.」arXiv preprint arXiv:1604.04315 (2016).
[6] Seo, Min Joon, et al.「Diagram Understanding in Geometry Questions.」AAAI. 2014.
[7] Seo, Min Joon, et al.「Solving Geometry Problems: Combining Text and Diagram Interpretation.」EMNLP. 2015.