感謝李世石生命般的抗?fàn)?現(xiàn)在我敢說AlphaGo的命門其實(shí)很簡單

  2016年3月13日,人機(jī)大戰(zhàn)第四局李世石執(zhí)白180手中盤勝AlphaGo。說這一勝是人類歷史上最重要的一勝也不為過,就不多說了。從圍棋技術(shù)與算法上來說,最重要的意義是,我們終于看到了一張AlphaGo的敗局譜,明確知道AlphaGo有重大bug,前三局過后看似威力無比的機(jī)器,發(fā)起瘋狗癥竟然會(huì)走出那么可笑的招法。

  現(xiàn)在終于知道,為什么谷歌只公布了與樊麾的五盤正式對局的棋譜,卻不公布非正式對局里二盤敗局的棋譜。哪怕一盤敗局的全譜泄露出來,人類稍作調(diào)查就會(huì)知道如何對付它。李世石接到谷歌的邀請,只考慮3分鐘沒提什么條件就應(yīng)戰(zhàn)了。從人類與機(jī)器斗爭的角度看,這真不折不扣是《三體》中描述的有礙于人類生存的“傲慢”。不夸張地說,只要李世石要求谷歌公布一張AlphaGo的敗局譜,這次人機(jī)大戰(zhàn)的勝利者就非常可能改寫。但也不能怪李世石,估計(jì)所有職業(yè)棋手都想不到,這是人類的共性。我們要感謝李世石,終于用生命一般的抗?fàn)幵诘谒木直瞥隽苏嫦唷?/p>

  1996年國際象棋第一次人機(jī)大戰(zhàn),卡斯帕羅夫就謹(jǐn)慎得多。他提出先由助手和IBM的機(jī)器下測試棋,正式比賽時(shí)卡斯帕羅夫以4:2獲勝。這是因?yàn)閲H象棋程序當(dāng)時(shí)已經(jīng)發(fā)展多年,顯示了不低的實(shí)力。而圍棋程序也是發(fā)展了多年,雖然取得了幾次重大進(jìn)步,人的感覺仍然是職業(yè)棋手讓五六子的水平。樊麾的失利是一個(gè)重要信 號(hào),但從人類情緒來看,越是不懂圍棋技術(shù)的人越敢預(yù)測機(jī)器的勝利。棋迷與職業(yè)棋手更了解自己這邊的“強(qiáng)大實(shí)力”,更了解圍棋作為一個(gè)算法問題的復(fù)雜度,傲慢沒有減少。

  第四局李世石獲勝的關(guān)鍵,賽前我就在上一篇文章中作出了非常接近實(shí)戰(zhàn)進(jìn)程的預(yù)測:開放式接觸戰(zhàn),利用機(jī)器“不喜歡打劫”的特性,讓機(jī)器犯昏。

  李世石這第78手在人類看來,其實(shí)還是有漏洞的,仔細(xì)拆解會(huì)發(fā)現(xiàn)這并不是最佳著手,黑棋應(yīng)對了白不行。但是這招非常神奇地引發(fā)了機(jī)器的bug。為什么會(huì)有bug,難有定論,我認(rèn)為最可能是AlphaGo的價(jià)值網(wǎng)絡(luò)出問題了(觀察者注:關(guān)于AlphaGo的價(jià)值網(wǎng)絡(luò),田淵棟的這篇《AlphaGo的分析》做了很好的科普,作者為前谷歌工程師,F(xiàn)acebook智能圍棋 darkforest 的負(fù)責(zé)人和第一作者)。

?20160321_009

  如圖至第82手。80和82都是必然的,所以叫78為神之一手。其實(shí)AlphaGo這時(shí)走B位,據(jù)職業(yè)棋手分析,空里沒有什么棋。如果白M13撲,黑可以 提掉78一子,白L13再打吃,黑粘在78位。下面白吃不掉63這個(gè)子。對人來說變化并不復(fù)雜。觀戰(zhàn)棋手猜測李世石預(yù)想的變化圖是這樣的:

?20160321_010

  如果AlphaGo走1位,那白只好2位先手接回一子,再4位先手切斷,在外面做出一片形勢,局勢還能維持。

?20160321_011

  而AlphaGo卻走了實(shí)戰(zhàn)的83手,后面一連串招法都特別糊涂的樣。所以犯錯(cuò)是從83手開始的。Deepmind負(fù)責(zé)人哈薩比斯說從79到85手,機(jī)器都以為自己勝率高達(dá)70%,到第87手才發(fā)現(xiàn)不對勁,一步棋評分就急劇下降了。降到多少?zèng)]有說,但肯定是個(gè)很低的分,所以才后面一連串搞笑的棋。這些搞笑的棋本身到是不難解釋,為了偷得可憐的一點(diǎn)勝率,它覺得別的招都不如你打吃看不見。Zen之類的MCTS程序落后了亂下很常見。我們要解釋,為什么AlphaGo下了錯(cuò)誤的83。

  這個(gè)局面特別復(fù)雜,把整個(gè)棋盤中間都卷進(jìn)去了,可以說根本不是地塊劃分的問題。決定性因素就是怎么出棋,出多大的棋,出劫的話怎么造對自己有利的劫。從AlphaGo的算法來看,它會(huì)從當(dāng)前這個(gè)局面進(jìn)行搜索展開,對葉子節(jié)點(diǎn)給出判斷。一半是靠價(jià)值網(wǎng)絡(luò),一半是靠“快速走子策略”走到終局。

  價(jià)值網(wǎng)絡(luò)的意思是,它靜態(tài)地看整個(gè)盤面,用一個(gè)多層的神經(jīng)網(wǎng)絡(luò)直接算,就報(bào)告這個(gè)局面誰會(huì)勝。雖然它能“深度學(xué)習(xí)”到很多隱藏的概念,我們很難想象,在一個(gè)火藥桶一樣的盤面上,一個(gè)靜態(tài)的不搜索的神經(jīng)網(wǎng)絡(luò)居然可以判斷清楚最終的勝負(fù)。這種復(fù)雜局面,我斷定價(jià)值網(wǎng)絡(luò)的判斷誤差是極大的。也許價(jià)值網(wǎng)絡(luò)在各種葉子節(jié)點(diǎn)粗粗地一看,黑棋在中間以多打少似乎應(yīng)該是形勢一片大好。這應(yīng)該不難理解,無論谷歌怎么拿幾億個(gè)局面訓(xùn)練價(jià)值網(wǎng)絡(luò),我也不相信它能判斷清楚。

  那么AlphaGo在葉子節(jié)點(diǎn)還有一半的機(jī)會(huì),就是“快速走子”你一招我一招不停直到終局。這個(gè)快速走子策略的實(shí)力還不錯(cuò),速度比策略網(wǎng)絡(luò)快1000倍的情況下,單只靠這個(gè)策略就有KGS的3D實(shí)力,做得其實(shí)很好了。但我們再想想,這么復(fù)雜的盤面,兩個(gè)KGS的3D在那下到終局,你信得過它們的模擬質(zhì)量?黑死還是白死估計(jì)就是隨機(jī)的了。如果讓兩個(gè)真實(shí)的人類3D在這個(gè)局面下,黑好白好確實(shí)可能等于扔硬幣。

  如果“快速走子終局”給的結(jié)果是隨機(jī),基本就是價(jià)值網(wǎng)絡(luò)在那主導(dǎo)判斷了。它要是有系統(tǒng)性的錯(cuò)誤偏向,誤以為黑形勢一片大好,那可能一大堆葉子節(jié)點(diǎn)都有類似錯(cuò)誤,因?yàn)楸P面很相似。所以綜合起來,AlphaGo的MCTS模塊,讓價(jià)值網(wǎng)絡(luò)在那高興,下了83和85還是繼續(xù)高興,勝率還是70%。終于在白下了86,黑87后,價(jià)值網(wǎng)絡(luò)發(fā)生了“跳變”,這里出現(xiàn)了棋塊特征的本質(zhì)變化,一大片類似葉子節(jié)點(diǎn)的價(jià)值網(wǎng)絡(luò)判斷都倒轉(zhuǎn)過來,于是只一手,勝率就從70%跳到30%之類的悲慘數(shù)字了。

  這是我的猜測,只能盡量地往合理上靠,最終如何希望Deepmind能給出分析。但是顯然,復(fù)雜的對殺盤面會(huì)對價(jià)值網(wǎng)絡(luò)造成嚴(yán)重困擾,這應(yīng)該是AlphaGo體系架構(gòu)中一個(gè)不太好消除的命門。同時(shí)復(fù)雜的對殺盤面,又讓“快速走子策略”模仿精度下降。要是兩個(gè)3D在那下和平棋終局,你占10目我占9目,錯(cuò)進(jìn)錯(cuò)出最后一平均是可能把局面好壞概率性模擬清楚。但要是50-50%機(jī)會(huì)的大對殺,就和其它地方無關(guān)了,模擬到最后也提供不了什么有效信息。

  AlphaGo搜索中的兩個(gè)武器都失靈了,就只有依靠“策略網(wǎng)絡(luò)”提供的各個(gè)候選點(diǎn)的概率了。同樣的原因,這個(gè)策略網(wǎng)絡(luò)只是一個(gè)靜態(tài)評估,復(fù)雜盤面各處頭緒很多,各種要點(diǎn)多得是,看上去的好點(diǎn)到處都是。我不相信策略網(wǎng)絡(luò)就那么湊巧對真正的好點(diǎn)給出高的概率。

  可以非常合理的認(rèn)為,對于復(fù)雜的、頭緒很多的對殺盤面,AlphaGo所有的搜索武器都會(huì)失靈,容易做出錯(cuò)誤選擇!三大搜索武器“策略網(wǎng)絡(luò)”、“價(jià)值網(wǎng)絡(luò)”、“快速走子終局?jǐn)?shù)子”,全都失靈!(觀察者注:關(guān)于AlphaGo三大利器,田淵棟的這篇《AlphaGo的分析》做了很好的科普,作者為前谷歌工程師,F(xiàn)acebook智能圍棋 darkforest 的負(fù)責(zé)人和第一作者)

  都失靈了,不管你怎么調(diào)參數(shù)拼湊一個(gè)MCTS架構(gòu),最后也還是失靈。這就是AlphaGo的命門!

  讓我們?nèi)祟愰_心的是,這并不是很難實(shí)現(xiàn)的!我和Zen下過,水平不夠怎么也下不過它。要么局部被它殺死,要么圈地大局觀搞不過。但是下多了,慢慢也琢磨出來了辦法。就不要怕它,這里開一片頭緒,那里開一片,留著不動(dòng)。然后各種頭緒慢慢湊一起,這里的選擇會(huì)影響那里。這種情況下Zen就昏了,它的搜索武器其實(shí)比AlphaGo更差,更是全都失靈了。我雖然也昏,但就死盯著某一個(gè)“陰謀”,設(shè)計(jì)一條路線圖就夠了,不去搜索那么多亂七八糟的。最后哈哈,Zen上當(dāng)了,我陰謀得逞,吃了一大片終于贏了。其實(shí)我的水平真的遠(yuǎn)不如Zen,各個(gè)局面手段和大局明顯不如。

  那么對李世石這樣的職業(yè)高手來說,復(fù)雜盤面更不是個(gè)事了。職業(yè)高手能理清楚復(fù)雜盤面的推理邏輯,用清楚的變化圖給出殺招。這正是體現(xiàn)大高手水平的地方。

  因此我大膽推測,AlphaGo其實(shí)沒有那么可怕。所有MCTS為基礎(chǔ)的程序都有的大漏洞,它一樣有,而且從算法角度沒有什么好辦法解決!這是算法原理決定的,不是寫程序代碼錯(cuò)了幾行的小bug。

  如果職業(yè)高手們了解了AlphaGo的漏洞,就不要客氣搞什么棋理圈地,直接就上去跟它殺!但不要在局部亂殺,不是說“在此決一勝負(fù)”,如李世石第一局開始的殺法,不對。要這里留點(diǎn)味道,那里留些頭緒,最后這些亂子湊到一起去,一定把AlphaGo弄昏頭。(觀察者小編:這里一點(diǎn),那里一絲,留有余味。人類的曖昧啊,阿爾法狗暫時(shí)還學(xué)不會(huì))

  因此,除了“不喜歡打劫”以外,AlphaGo還不喜歡復(fù)雜的盤面。所以前三局中它表現(xiàn)得特別喜歡定型,有手段就使出來,減少頭緒。這是它的搜索特性決定的。

  分析清楚以后就可以肯定,AlphaGo的漏洞不小。開始人類不了解它,看它下得象模象樣,還時(shí)不時(shí)有好招,被它嚇到了,沒有找到它的命門。它是有幾招絕活玩得不錯(cuò),封閉局面算得不錯(cuò),圈地運(yùn)動(dòng)搞得不錯(cuò),幾百萬次算到終局去人不可能玩得過。選點(diǎn)也很靠譜,算得快算得準(zhǔn)。在它擅長的領(lǐng)域和它打,當(dāng)然就不是對手,哪怕是人類最高水平的也不行。但復(fù)雜盤面是人類的天生優(yōu)勢,這不是MCTS那幾招搞得定的,需要人類高手制造頭緒歸納頭緒的邏輯能力。

  AlphaGo的缺陷被測試出來以后,人類高手將可能對機(jī)器取得壓倒性的勝利。當(dāng)然人類高手需要改變下法,不要和自己人下那樣講棋理數(shù)著目下。碰到機(jī)器就要攪,越復(fù)雜越好。不是一處變化多手?jǐn)?shù)多那種復(fù)雜,而是攪出的頭緒越多越好。

  這還沒有提到打劫的能力,這更是人類高手勝過機(jī)器的地方。機(jī)器可以用控制流避開劫爭,但這終究不是辦法。如果人想通了,自己不要虛,大膽引入劫爭分支,機(jī)器總是避劫原理上就不合于棋道。當(dāng)然這個(gè)分析起來更復(fù)雜。

  綜上所述,如果高水平圍棋程序還是基于MCTS架構(gòu)的,都會(huì)有難以解決的大缺陷。我對人類高手一段時(shí)間內(nèi)壓制機(jī)器充滿信心!

  

Comments are closed.

主站蜘蛛池模板: 久久久久AV综合网成人| 国产综合在线观看| 色欲综合久久躁天天躁蜜桃| 久久婷婷色综合一区二区| 国产综合精品女在线观看| 天天影视色香欲性综合网网站| 亚洲欧美日韩综合俺去了| 亚洲AⅤ优女AV综合久久久| 久久丝袜精品综合网站| 色综合久久久久久久久久| 国产91久久综合| 亚州AV综合色区无码一区| 久久久久综合一本久道| 色综合久久一区二区三区| 一本久久a久久精品综合夜夜| 狠狠色丁香久久婷婷综合_中| 亚洲综合伊人久久综合| 精品综合久久久久久99| 亚洲五月丁香综合视频| 亚洲精品第一国产综合境外资源| 五月天激激婷婷大综合丁香| 久久综合亚洲色HEZYO国产| 久久亚洲精品高潮综合色a片| 久久综合亚洲鲁鲁五月天| 久久亚洲综合色一区二区三区| 色综合天天综合网国产国产人| 激情综合亚洲色婷婷五月| 婷婷五月综合色视频| 亚洲av综合av一区| 婷婷成人丁香五月综合激情| 丁香婷婷色五月激情综合深爱| 亚洲国产成人久久综合一区77| 国产精品综合一区二区三区| 色婷婷久久综合中文久久一本`| 91精品国产色综合久久不卡蜜| 亚洲综合久久综合激情久久| 色综合久久无码五十路人妻| 久久狠狠色狠狠色综合| 久久婷婷五月综合97色| 涩涩色中文综合亚洲| 色婷婷综合久久久久中文字幕|