如果非要問 AlphaGo 有什么缺點,那就是下棋不像人類和 AlphaGo 對弈過的頂級棋手都有這種感受,他們覺得 AI 落子經(jīng)常讓人捉摸不透

這不僅是 AlphaGo 的問題,許多 AI 系統(tǒng)無法解釋,且難以學(xué)習(xí)如果想讓 AI 與人類協(xié)作,就不得不解決這個問題現(xiàn)在,來自 Meta AI 等機構(gòu)的研究者們打造出一個能戰(zhàn)勝人類頂級棋手,且更容易復(fù)盤棋譜的 AI
他們用人類棋譜訓(xùn)練 AI 模仿,并讓后者超越了人類。
上圖分別展示了該方法在國際象棋,圍棋的表現(xiàn)。
縱軸為 AI 與原始模型對弈的勝率,橫軸為 AI 預(yù)測人類落子位置的 Top—1 準(zhǔn)確度可以看出新的算法在兩方面都已經(jīng)超過了 SOTA 結(jié)果
像人類,還能打敗人類
正所謂魚與熊掌難以兼得AlphaGo 使用的自我博弈與蒙特卡洛樹搜索,雖然練就了無比強大的 AI,但它的下棋更像憑直覺,而非策略如果要讓 AI 更像人類,更應(yīng)當(dāng)使用模仿學(xué)習(xí),但是這卻很難讓 AI 達到人類頂級棋手水準(zhǔn)
Meta AI 和 CMU 的研究者發(fā)現(xiàn),加入了 KL 正則化搜索后,一切都不一樣了AI 的落子策略變得與人類棋手更加相似,這就是他們提出的新方法
piKL—hedge 的執(zhí)行步驟如下:
在下圖中,piKL—Hedge可以生成預(yù)測人類博弈的策略,其準(zhǔn)確度與模仿學(xué)習(xí)相同,同時性能強 1.4 倍另一方面,在實現(xiàn)更高預(yù)測準(zhǔn)確性的同時,piKL—Hedge 優(yōu)于非正則化搜索的策略
本文共有三位共同一作,分別是來自 Meta AI 的 Athul Paul Jacob,David Wu,以及 CMU 的 Gabriele Farina。
Athul Paul Jacob 同時也是 MIT CSAIL 的二年級博士生,從 2016 年到 2018 年,他還在 Mila 擔(dān)任訪問學(xué)生研究員,在 Yoshua Bengio 手下工作,與 Bengio 共同發(fā)表了多篇論文。
David Wu 是 Meta AI 的國際象棋和圍棋首席研究員。
Gabriele Farina 是 CMU 一名六年級博士生,曾是 2019—2020 年 Facebook 經(jīng)濟學(xué)和計算獎學(xué)金的獲得者,他的研究方向是人工智能,計算機科學(xué),運籌學(xué)和經(jīng)濟學(xué)。
另外,Gabriele Farina 還參與過著名的 CMU 德州撲克 AI 程序 Libratus 的開發(fā)。
論文地址:
。聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費建議。文章事實如有疑問,請與有關(guān)方核實,文章觀點非本網(wǎng)觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環(huán)球度假區(qū)時須核驗北京健康
具體如下:北京環(huán)球度假區(qū)繼續(xù)按照相關(guān)政府部門的限流要求,以預(yù)約入園的形式加強人流動態(tài)監(jiān)測和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風(fēng)景景區(qū)出臺最新政策,將設(shè)置臨時帳篷搭建區(qū),后續(xù)還要增設(shè)露營服務(wù)區(qū)...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22