AlphaZero問世:8小時(shí)完爆圍棋、國(guó)際象棋、日本將棋智能

網(wǎng)易智能 2017-12-07 09:20
分享到:
導(dǎo)讀

日前,DeepMind團(tuán)隊(duì)發(fā)表了最新論文,提出了全新的強(qiáng)化學(xué)習(xí)算法AlphaZero,它是一種可以從零開始,通過自我對(duì)弈強(qiáng)化學(xué)習(xí)在多種任務(wù)上達(dá)到超越人類水平的新算法,堪稱“通用棋類AI”。

通用AI問世!AlphaZero強(qiáng)化學(xué)習(xí)算法8小時(shí)完爆人類

日前,DeepMind團(tuán)隊(duì)發(fā)表了最新論文,提出了全新的強(qiáng)化學(xué)習(xí)算法AlphaZero,它是一種可以從零開始,通過自我對(duì)弈強(qiáng)化學(xué)習(xí)在多種任務(wù)上達(dá)到超越人類水平的新算法,堪稱“通用棋類AI”。

通用AI問世!AlphaZero強(qiáng)化學(xué)習(xí)算法8小時(shí)完爆人類

據(jù)了解,AlphaZero算法可以再8個(gè)小時(shí)訓(xùn)練擊敗李世石版本AlphaGo;12小時(shí)訓(xùn)練擊敗世界頂級(jí)的國(guó)際象棋程序Stockfish;14小時(shí)訓(xùn)練擊敗世界頂級(jí)將棋程序Elmo。這是DeepMind團(tuán)隊(duì)繼AlphaGo Zero的研究問世之后,帶給我們的又一全新算法,它是“更通用的版本”。

 

此外,我們看到這次的AlphaZero與AlphaGo Zero有幾點(diǎn)不同,首先AlphaGo Zero是在假設(shè)結(jié)果為贏/輸二元的情況下,對(duì)獲勝概率進(jìn)行估計(jì)和優(yōu)化。而AlphaZero會(huì)將平局或其他潛在結(jié)果納入考慮,對(duì)結(jié)果進(jìn)行估計(jì)和優(yōu)化。其次,AlphaGo和AlphaGo Zero會(huì)轉(zhuǎn)變棋盤位置進(jìn)行數(shù)據(jù)增強(qiáng),而AlphaZero不會(huì)。第三,AlphaZero只維護(hù)單一的一個(gè)神經(jīng)網(wǎng)絡(luò),這個(gè)神經(jīng)網(wǎng)絡(luò)不斷更新,而不是等待迭代,四,AlphaZero中,所有對(duì)弈都重復(fù)使用相同的超參數(shù),因此無需進(jìn)行針對(duì)特定某種游戲的調(diào)整。

來源:網(wǎng)易智能

AlphaZero AlphaGo 進(jìn)行 算法 Zero
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。


觀點(diǎn)約架