“一邊倒”的人機(jī)對抗:《星際爭霸》比圍棋難在哪?通信
目前在《星際爭霸》的項(xiàng)目上,AI還不能給人類選手帶來哪怕一點(diǎn)點(diǎn)的壓力。

目前在《星際爭霸》的項(xiàng)目上,AI還不能給人類選手帶來哪怕一點(diǎn)點(diǎn)的壓力。
與之前AlphaGo挑戰(zhàn)柯潔和李世石時(shí)的萬眾矚目不同,當(dāng)人工智能再一次想要挑戰(zhàn)人腦時(shí),受到的關(guān)注卻遠(yuǎn)沒有上一次多。這一次它的對手不是圍棋,而是《星際爭霸》。
前段時(shí)間,韓國首爾世宗大學(xué)官方舉辦了世界首屆人類與星際爭霸AI的對抗賽,代表人類出戰(zhàn)的是前《星際爭霸》項(xiàng)目職業(yè)選手:Stork(宋炳具),與之對抗的對手則是四個(gè)不同的AI,韓國世宗大學(xué)金正中教授組織開發(fā)的“MJ Bot”,以及來自澳洲的“ZZZK”,挪威的“TSCMO”和Facebook開發(fā)的Cherry Pi。

無論是《星際爭霸》還是《星際爭霸2》,韓國幾乎可以說“一直代表著這個(gè)游戲的最高實(shí)力”。因此,由韓國的科研機(jī)構(gòu)來主辦這場比賽自然是相當(dāng)有說服力的。

而作為電腦AI隊(duì)伍的頭號種子,電腦AI“MJ Bot”也不遑多讓。該程序從2011年開發(fā)至今已經(jīng)多次亮相,而且獲獎(jiǎng)無數(shù),被譽(yù)為現(xiàn)今韓國最好的“星際爭霸AI”。
當(dāng)現(xiàn)階段最強(qiáng)電腦AI碰上前職業(yè)選手,有人猜測二者會(huì)殺得難解難分。尤其是在看過了AlphaGo在圍棋上的強(qiáng)勢之后,有人反而覺得電腦的勝算會(huì)更高一點(diǎn)。
但是比賽的結(jié)果卻相當(dāng)?shù)摹捌降保谝痪趾蚆J的比賽,Stork祭出空投戰(zhàn)術(shù),拿到場面優(yōu)勢之后順手就拆了對手老家。第二局對上ZZZK,Stork和AI同時(shí)拿出速推打法,結(jié)果AI仍舊敗下陣來。第三局面對TSCMO,Stork仍然是速勝。第四局里,Cherry Pi同樣也沒有給人類選手帶來哪怕一點(diǎn)點(diǎn)壓力。

至少從目前的情況來看,AI想要在《星際爭霸》這個(gè)項(xiàng)目上戰(zhàn)勝人類,還有很長的路要走。
層層選拔的機(jī)器人“對手”
在過去的幾年之間,以《星際爭霸》為基礎(chǔ)展開的人工智能研究一直在上演,其歷史甚至比圍棋上的較量還要早。最著名而且歷史最悠久的,肯定要數(shù)美國加州大學(xué)圣克魯茲分校舉辦的AIIDE了。
這場名為AIIDE的比賽,其實(shí)本質(zhì)上是一場人工智能之間的比賽,說白了就是“電腦打電腦”,從2010年開始,每年一屆,到今年已是第8年。

每年都會(huì)有來自世界各地的大學(xué)或者實(shí)驗(yàn)室,帶來自己的作品來這里進(jìn)行互相比拼。包括這次比賽的三個(gè)AI都是AIIDE的常客,來自澳洲的“ZZZK”是2015年的亞軍,來自挪威的“TSCMO”是當(dāng)年的冠軍。而韓國的“MJ”則是名為“Xelenaga”的老牌星際AI的升級版,在AIIDE賽場也是多年混跡于前十名的常客。可以說,這三個(gè)在現(xiàn)階段已經(jīng)是AI在《星際爭霸》領(lǐng)域里的最強(qiáng)選手了。
從2012年到2016年的五屆AI對抗賽里,都能看到“TSCMO”,“ZZZK”和“Xelenaga”(即MJ)這三臺(tái)AI的身影
而在每年的AIIDE最后都有一個(gè)保留節(jié)目:最后獲得冠軍的電腦AI會(huì)與一名非專業(yè)的人類選手進(jìn)行較量。雖然這樣的表演賽看起來更像是一個(gè)非正式的“助興節(jié)目”,但是直到2017年的AIIDE,電腦AI對陣人類選手還未嘗勝績――哪怕對手只是普通的星際愛好者。
AIIDE的組織者Dave Churchill曾就此表示:“即使最頂尖的電腦AI,目前也只達(dá)到了低級業(yè)余的水平(在星際爭霸項(xiàng)目中),在人類選手面前就像過家家一樣,想要達(dá)到AlphaGo在圍棋方面的壟斷優(yōu)勢,至少還有5~10年的路要走……但是誰也說不好明天會(huì)發(fā)生什么。”
《星際爭霸》究竟比圍棋難在哪兒?
說AIIDE里的人機(jī)對抗還是一場不成熟、不正式的助興節(jié)目,這次韓國舉辦的比賽應(yīng)該會(huì)讓這個(gè)論斷更有說服力。隨著時(shí)間的進(jìn)步,電腦硬件和智能算法的進(jìn)步要遠(yuǎn)快于人腦。所以至少到比賽開始之前,無論是星際職業(yè)選手,觀眾還是科研人員,對于結(jié)果的預(yù)測都很難達(dá)成共識。
《麻省理工科技評論》雜志在賽前曾采訪過兩位頂尖職業(yè)選手:2016年《星際爭霸2》WCS世界錦標(biāo)賽的冠軍ByuN,以及曾經(jīng)世界最強(qiáng)的蟲族選手之一,現(xiàn)已退役的“暴君”Jaedong。
二人均在采訪中表示,愿意代表人類與星際AI來一場公開的較量,但是他們對于誰勝誰負(fù)的看法卻截然相反,恰好可以代表大部分人對于這場比賽的兩種態(tài)度。
24歲的ByuN很有信心戰(zhàn)勝人工智能。“在有生之年,人工智能絕不是我的對手。” 他說,“在玩《星際爭霸》時(shí),你需要對許多未知和變數(shù)作出迅速的反應(yīng),但是我發(fā)現(xiàn)AlphaGo并不擅長處理突發(fā)事件……想要設(shè)計(jì)一個(gè)同時(shí)可以應(yīng)對突發(fā)情況,又要對比賽的長期發(fā)展做出預(yù)測的AI是很難的。”

像這樣精彩的極限操作,沒有任何一個(gè)人類選手可以保證在比賽中萬無一失
而Jaedong則持相反的觀點(diǎn),他認(rèn)為人工智能可以輕松戰(zhàn)勝人類選手。他說:“AI不知疲倦,而且在重壓之下也不會(huì)犯錯(cuò),并且擁有人類生理無法實(shí)現(xiàn)的手速(APM), 如果人工智能技術(shù)達(dá)到了一個(gè)人類無法跟上的速度,那么它將輕松戰(zhàn)勝人類。”

職業(yè)星際選手的手速在人工智能面前不值一提
這兩種觀點(diǎn)的矛盾之處,恰恰是人們對于“想要贏,什么條件最重要”的討論。換句話講,就是在問:AI為什么在《星際爭霸》項(xiàng)目上會(huì)輸呢?或者是問:為什么要選擇《星際爭霸》這款游戲來作為研究人工智能AI的樣本呢?
相比于之前AlphaGo擅長的“完全信息博弈”的圍棋,《星際爭霸》顯然是一個(gè)擁有更多不確定因素的游戲。在圍棋對弈時(shí),AI可以看清楚棋盤上的每一個(gè)位置,然后依靠自己比人腦強(qiáng)大無數(shù)倍的計(jì)算能力,衡量每一步落子所帶來的收益,然后確定最優(yōu)的方案。這種能力是人腦再開發(fā)到極限也是無法實(shí)現(xiàn)的。
而在游戲中,AI的這種優(yōu)勢其實(shí)并無太多用武之地。熟悉RTS(即時(shí)戰(zhàn)略)游戲的玩家應(yīng)該都了解“戰(zhàn)爭迷霧”這種機(jī)制。AI并沒有“作弊”讀取正在進(jìn)行中的游戲的內(nèi)存數(shù)據(jù)的話,它是無法得知玩家現(xiàn)階段在布置何種戰(zhàn)術(shù),因此也就無法提前做出“最優(yōu)判斷”。而這種判斷對于RTS的獲勝來說才是至關(guān)重要的。即使AI洞悉了玩家的戰(zhàn)術(shù),他也未必能即時(shí)做出改變,甚至有可能被玩家“虛晃一槍”。
職業(yè)選手ByuN就表示他會(huì)使用"非常規(guī)的策略和戰(zhàn)術(shù)"來迷惑AI。“我會(huì)阻止它開視野,發(fā)現(xiàn)我的基地布局和建筑順序。”ByuN說,"如果我的基地被發(fā)現(xiàn),我會(huì)選擇停止所有建筑計(jì)劃。”

AI在信息對等的情況下,臨機(jī)應(yīng)變的能力不如人類,星際需要玩家對資源控制,升級先后順序,不同種族和兵種相互克制等方面有整體的認(rèn)識。這種互相牽制的效果,即是游戲平衡性的由來。這方面的整體考慮遠(yuǎn)比下圍棋時(shí)只考慮黑子和白子的位置更加復(fù)雜。
考慮到人工智能在APM手速和精確微操方面優(yōu)勢明顯,這可能成為另外一個(gè)能決定比賽最終結(jié)果的重要因素。
曾經(jīng)有人設(shè)計(jì)出一種 “悍馬2000(Automation 2000)”的腳本,極限APM達(dá)到15000(頂尖職業(yè)選手APM大約為200+),實(shí)現(xiàn)了一系列諸如“100只狗拆掉20輛坦克”、“機(jī)槍兵甩毒爆”、“無雙運(yùn)輸機(jī)甩牛”等眼花繚亂的壯舉。如果在現(xiàn)實(shí)比賽中出現(xiàn),無疑可以給人類玩家造成巨大的心里壓力,甚至一舉奠定勝利基礎(chǔ)。

雖然頂尖職業(yè)選手也曾在比賽中上演過類似的操作,但是畢竟在正式比賽的高壓之下,沒人敢說一定能成功。在這種前提下,電腦與人腦看起來是在不平衡的前提下進(jìn)行對決。官方似乎也注意到了這一點(diǎn),暴雪和DeepMind團(tuán)隊(duì)也強(qiáng)調(diào)過,未來的人工智能并不會(huì)擁有非人類的逆天操作,他們將會(huì)通過限制人工智能的APM來保證它的操作,也會(huì)有類似人類的極限和失誤。

但是藝高人膽大的ByuN再一次站出來反對了,他說:“任何限制人工智能的舉動(dòng)都會(huì)令‘人機(jī)大戰(zhàn)’失去意義。 ”
啟示
目前除了這些老牌的星際AI在不斷進(jìn)化之外,也有更多人工智能科研團(tuán)隊(duì)加入進(jìn)來。其中最有代表性的就是曾主導(dǎo)了AlphaGo開發(fā)的DeepMind團(tuán)隊(duì)。
AlphaGo 2.0在版本(即完勝柯潔的版本)時(shí),已經(jīng)可以通過自我博弈達(dá)到學(xué)習(xí)的目的。如果這種技術(shù)應(yīng)用到游戲中的話,可能會(huì)徹底改變目前星際AI打法都是人工設(shè)定好的,容易被針對的現(xiàn)狀,甚至?xí)Q生出一些新的戰(zhàn)術(shù)和玩法,以啟發(fā)職業(yè)選手。

在2016年的暴雪嘉年華開幕式上,谷歌的研究人員就上臺(tái)宣布了DeepMind目前和暴雪共同開發(fā)星際AI的計(jì)劃和工作進(jìn)展
而由Elon Musk贊助的人工智能項(xiàng)目OpenAI,也同樣將目標(biāo)瞄準(zhǔn)了《星際爭霸》為代表的對抗性游戲。在今年的Dota2 Ti7全球總決賽上,它就以壓倒性的優(yōu)勢戰(zhàn)勝了代表人類玩家的頂級選手Dendi。雖然二者對決并非建立在完整的游戲規(guī)則之上,但是在中路一對一對線的表演中,OpenAI在走位,補(bǔ)兵的操作上沒有一絲失誤,這也再一次映證了電腦AI在操作方面仍然有著先天性的優(yōu)勢。
來自中國阿里巴巴人工智能實(shí)驗(yàn)室和倫敦大學(xué)的研究人員也在以星際為樣本,研究人工智能對多種單位協(xié)同控制的能力,并且取得了不錯(cuò)的成績。
眾多科研機(jī)構(gòu)能夠如此順利進(jìn)行星際AI研究,要多虧了暴雪官方在游戲上對開放性做出的讓步。針對《星際爭霸1》,暴雪專門針對母巢之戰(zhàn)版本開放了BWAPI編程接口,保證了開發(fā)者可以針對游戲操作來不斷優(yōu)化人工智能的算法,同時(shí)還保證了“公平性”:AI基本上只能按照人類的思維方式向游戲下達(dá)指令,基本上人類可以做到哪些事情,AI也就只能做到這個(gè)地步,從而杜絕了對于電腦會(huì)“作弊”的擔(dān)憂。
針對《星際爭霸2》,暴雪則和DeepMind團(tuán)隊(duì)合作推出了SC2LE(StarCraft II Learning Environment)――一個(gè)星際爭霸2(StarCraft2)的工具包,為研究提供了非常大的幫助。

通過暴雪開放的官方接口,已經(jīng)可以測試AI在某些特殊任務(wù)中的行為
顯然,研究一款游戲AI不是所有研發(fā)人員的最終目的。谷歌曾經(jīng)透露,更多的意義是通過這種研究來幫助人類改善生活。
如果僅從《星際爭霸》這款游戲來看,人工智能在不久的將來,可以成為人類選手訓(xùn)練的最佳伴侶。更進(jìn)一步講,當(dāng)人工智能技術(shù)成熟之后,提供給人類的可能更像是星際爭霸中副官的形象,協(xié)助我們分析局面,提供建議。當(dāng)然,這樣的前提是我們電腦AI能“更像一個(gè)真人”或者一個(gè)“冷靜的旁觀者”,這樣最終的決定權(quán)就仍然掌握在我們自己手中。
最后提醒一句,那些曾經(jīng)給柯潔出主意,讓他“拔掉AlphaGo插頭”的人要注意了,星際AI可不吃這一套。因?yàn)椤缎请H爭霸2》對戰(zhàn)時(shí)掉線,是可以重連的。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。