圍棋的未來在何方?——人機大戰對圍棋文化的影響研討會
會議時間: 2016年2月16日9:00~13:00
主辦單位: 國學網、光明日報
參會嘉賓:林建超(中國圍棋協會副主席)
邱運華(首都師范大學副校長)
梁 樞(光明日報國學版主編)
尹小林(首都師范大學電子文獻研究所所長)
韓立新(清華大學哲學系主任、清華大學圍棋文化交流與研究基金會主席)
孫茂松(清華大學計算機系主任)
干春松(北京大學哲學系教授、儒學研究院副院長)
王 元(《圍棋天地》副主編)
程廣云(首都師范大學哲學系主任)
劉知青(北京郵電大學軟件學院教授、圍棋軟件開發者)
鄧瑞全(北京師范大學易學文化研究院副院長)
方 銘(北京語言大學孔子與儒家文化研究所所長)
尹小林:
我先介紹一下在座的各位嘉賓。
林將軍是中國圍棋協會副主席,大家都認識,他在《圍棋天地》發表的《圍棋與國家》已經上了全國高考語文試卷,是圍棋文化的領頭人。
邱運華老師是首都師范大學副校長,喜歡圍棋,特別支持圍棋活動。
梁樞先生是《光明日報》國學版主編。
韓立新老師是清華大學哲學系教授,也是清華大學圍棋文化交流與研究基金會的理事長。他們已經在日本、韓國搞了一些圍棋文化交流活動,可能以后還會在歐洲、美國搞活動。
干春松老師是北京大學哲學系教授,研究領域是中國哲學和中國傳統文化。
程廣云老師是首都師范大學哲學系主任,也愛好下圍棋。
方銘老師是北京語言大學孔子與儒家文化研究所所長。
鄧瑞全老師是北京師范大學中國易學文化研究院常務副院長。
劉知青老師是北京郵電大學軟件學院教授,這兩天他一直在電視網絡上講解人機大賽。他本人就是搞圍棋軟件開發的。
王元先生是《圍棋天地》的副主編,職業八段,是在座中圍棋水平最高的。
孫茂松老師是清華大學計算機系原系主任,現在是書記。
非常榮幸能夠邀請到各位來座談,這次我們人數不多,但都是各個領域的高人。我們前任校長曾經有個愿望,他說我們應該辦教職工的圍棋比賽,辦北京市大學生的圍棋活動,還應該出版一些圍棋古譜,盡量使我們學校有文化一點。
今天這個話題我覺得特別有意義,這是一個面向未來的嶄新話題。原來國學網也主辦過一些活動,比如《中國歷代圍棋古譜集成》,是面向過去的整理;“國學杯”是面向業余棋界的比賽,等等。而本次座談會則是面向未來的一個活動,這是非常有意義的。能在這里來聽一聽各位的高見,我覺得是非常幸福的一件事情。
各位嘉賓,我先把這次活動的緣起做一個簡單陳述,然后大家自由發言。
這次人機大賽的意義,已經遠超主辦方的設想。記得去年十一月份去韓國參加圍棋活動,大家還在討論圍棋軟件,去年在中國搞了一個計算機圍棋大賽,當時最好的圍棋軟件的水平,職業棋手要讓五到六個子,所以許多人認為五十年之內計算機下不過職業棋手,甚至有人說這輩子都見不到計算機在圍棋上戰勝職業棋手的這一天。今年二月,樊麾戰敗這件事一出來,圍棋界就炸鍋了,樊麾是職業二段,計算機5:0全勝。后來就是三月李世石與AlphaGo大賽,它的影響已經超出了圍棋界,超出了科技界,更大程度上也是一個文化事件。今天我們這個會議的范圍很小,但是有圍棋、科技、文化三個方面的代表。
這幾天我看了大賽的棋譜和一些媒體的報道,有三點感受。
第一個感受是強者至上。在圍棋界,誰的水平高,誰就擁有更多發言權。此前計算機軟件水平不高,沒有多少發言權。這一次AlphaGo軟件出來以后,職業棋手就開始謙虛了。
現在討論比較多的,把計算機叫做圍棋上帝。從某種意義上講,計算機就是代表上帝和人在下棋,我的第一個感受就是計算機太強大了。
第二個感受是大道至簡。最大的道理是最簡單的。今天我們還請了《周易》方面的專家,《周易》的“易”與對弈的“弈”是同音的,在古漢語里面,同音往往同義。當圍棋這么復雜的游戲可以簡化到用二進制來表述的時候,它就與《周易》相通了。
原先我們認為圍棋變化太多,無法計算,但是當我們找到一種算法時,情況就變了。前兩天一個搞計算機的朋友跟我透露了一個信息,他說現在AlphaGo已經找到一種基于圖像的算法,直接計算棋形的面積,計算雙方棋子的面積。大道至簡,最復雜的東西用最簡潔的方法來表示,這就是計算機的基本原理。
第三個感受是弱勢平衡。世界上不能只有強者,弱者是和強者共存共生的。比如王元老師是職業八段,我是業余3段,如果他讓到五六個子的時候,我們雙方力量就平衡了。實際上我們的文化也好,圍棋也好,周易也好,中醫也好,都在講平衡。這次人機大戰很大程度上是在逼迫我們去思考歷史、現代和未來,我們需要從文化的角度上去思考這次人機大賽的意義。
我先講這些,拋磚引玉,主要是聽大家的發言。
一
上海日報有一個退休的高級記者叫胡新梅,曾經做過多年的圍棋報道。前年的時候找到我,我寫過一本《現代計算機圍棋技術》,講得其實就是AlphaGo一些基本方法,還有一些創新放在后面。他看這本書以后覺得非常有意思,就說我們來做一個對話吧。他是從文化、圍棋的背景,我是在人工智能的背景,這樣做了一個對話錄。那本書里面,我們做了一個大膽預測,我說計算機圍棋會在五到十五年之內戰勝頂尖職業棋手。這個可能是當時最大膽的預測了,沒有人相信這個預測。去年十一月份的時候舉辦首屆計算機圍棋錦標賽,我們幾個當時也做了一個沙龍討論,去預測什么時間能到達這個點。普通的研究人員也都是認為十五到二十年,那是在去年十一月份。其實去年十月份AlphaGo已經戰勝樊麾了,但當時還沒有公布,這件事公布是在今年一月二十八日,他們的文章在頂級科學雜志《Nature》上發表,公布了這個事實。這遠遠超出像我從事這個行業的一個最樂觀的估計,所謂樂觀的估計還是顯得悲觀了,不是五到十五年,而是五到十五個月已經完成這個事情了,這是科技的一個重大突破,當然它對圍棋也有一個深遠的影響。我想我就先說這么多,也請各位教授專家從文化角度更深地去解讀這個事情。
首先呢,《Nature》那篇文章非常重要,我仔細讀過它,那篇文章指出了一個很明確的方向,但是它沒有公布細節。細節也沒有辦法公布,如果公布細節的話,那就不是十頁紙,而是要占一百頁紙了。它不公布細節,所以別人要復制那些細節還是需要一定的工作量,我們的團隊其實已經開始復制這些技術當然有些細節,有些參數都是要重新去摸索,我覺得田淵棟還需要摸索一些細節。要掌握這個技術,即使公布了方向,就像知道要這樣做才能爬到珠穆朗瑪峰,但你按著方法去爬,也不是十天半月能夠做出來的東西。
那么這個團隊,我們可以看到,是非常大的一個團隊。他們發表論文就有二十幾位作者,都是長期從事計算機工作的博士專家,最前沿的學者。可以想象它的工程師團隊人數,乘以二或乘以三都是有可能的。而且他們做了兩年,主要人員都有十多年的計算機圍棋研究背景,有十多年的積累。羅馬不是一天建成的,怎么也不可能說十五天就可以完成復制,這是不太現實的,我不大相信這個論文一出來,十五天就能夠把它復制,里面有很多細節還需要摸索和積累。
陰謀論總是有的,但我看他們的論文,非常有說服力。而且,世界上能夠這樣戰勝李世石的,應該是沒有的。在現場它不可能去作弊,它下棋的方法也不是人的方法,它做了很多像我們看到的交換,我們看來都是俗手,這些小細節不是最優,但它仍然可以碾軋李世石。李世石唯一一盤的翻盤,只是計算機在那個時候犯了一個錯誤,而這個錯誤其實是它使用技術的一個特征。它使用這種技術,其實就是有這個錯誤,是算法本身的缺陷,只是說平常這個東西沒有這么復雜,沒有這么大的壓力,沒有顯現出來。當時是一個很復雜的死活計算問題,計算機就把它算錯了,這個弱點恰恰說明這是一個軟件,是一個計算機。而且它的強項也是計算機的強項,不是人的強項。整個過程應該還是一個非常有說服力的技術的展現。
韓立新:
自從谷歌這個論文發表之后,很多人就要去進行模擬驗證,根據它提供的突破點去編程,弄出來的程序都達到了業余五六段的水平。這些在過去都是不可想象的,當然我估計也不是那么簡單,可能前期也有做過研究,但是能達到這個水平是有可能的,不見得能夠懷疑科學。
五六年前,微軟有一個華人學者,是清華出去的,負責微軟的語音識別項目。他是湖南人,兼湖南大學的教授,當時天河一號應該在湖南大學放了一套系統,他就想做點事情,與我商量說能不能做個圍棋軟件。當時我覺得圍棋太復雜了,業界共識都一樣,太復雜了。當時確實沒有好辦法,它的搜索空間太大了。我大概算了算,縱橫19道,361點,每個點都有白子、黑子、無子三種可能,這就是3361。算下來一盤棋有10172種可能。
林建超:
這是沈括在一千年前記載在《夢溪筆談》里的,其實理論上還要比這個數字大得多。沈括當年不能掌握的,一個是組合的方法,第二個是滿空間的算法,第三個是黑白雙方運行,而且他不知道重復提子,這些東西當年都沒有計算在內,所以一個點不是三種可能,是更多種可能。拿現代的高等數學來計算,由數學博士生導師、計算機專家組成一個組算了三個月。沈括的那種算法就太簡單了,那是一千多年前中國人的智慧,在當時是全世界最高水平。現在來說,由于圍棋技術的發展和圍棋實戰經驗的積累,使大家認識到圍棋里有更多規律性的東西,所以不是那么簡單的。
孫茂松:
反正很復雜,我算了算這個復雜的不得了。而且這里面還有一個問題,你必須把人類下得比較好的棋盤給它送進去,做機器學習,才有可能。但是中國大學里面你要去做這個工程是很困難的,幾千萬棋盤要送進去。所以當時真是沒有好辦法,大學沒有這個工程能力。谷歌它肯定有這個工程隊伍,才能把幾千萬個棋盤給送進去。再一個國內科學體制下沒有辦法拿到這個經費,做個圍棋的你給我三千萬,沒有結合國家重大需求也拿不到。所以當時就沒敢做。但是到最近兩三年的時候,卷積神經網絡出來,當時我的第一直覺就是:圍棋可以做了。因為卷積神經網絡這幾年在語音識別、圖像識別上的進展是突飛猛進。這個網絡模型本身很簡單,稍微講一講可能半個小時就搞明白了,但是它的參數很多。語音識別現在做到什么程度,它的錯誤現在大概在9%,以前要高得多。圖像識別,現在國際上有一個公開的圖像識別比賽,當然用計算機來比。大概就是任意給你圖像,你把它分到一千類里的一種。人的錯誤率大概是5.1%,但機器大概能做到3.5%。這個是現在包括谷歌,包括微軟,包括百度在激烈競爭的一個領域,也是用卷積神經網絡。這個卷積神經網絡,就是輸入一張圖片,一個最簡單的圖片,64*64的一個點陣,比圍棋要復雜的多,圍棋不就是19×19么?而且圍棋就是黑子、白子、無子三種可能,它不是。
劉知青:
我再補充一下。如果簡單的說圍棋有多少種狀態,沈括就算出來了,但圍棋不僅僅是個狀態,它還是個過程,“劫”就是一個過程問題。當你把它看作時一個過程的時候,復雜度就遠遠超出沈括的計算了。
孫茂松:
圖像識別,機器來看,就是一個格子上面有點,點上有黑白,到底是什么東西,機器也不知道。但我最后要告訴機器,我要讓機器說出來這是一個人、一個麥克風或者一個杯子,我們叫語義宏構化,這個任務也含有挑戰性。因為一個杯子可以千奇百怪,某種意義上來說,這個任務可能比圍棋還要難。
韓立新:
不好意思打斷你一下,是不是說在圖像識別這個技術上,人工智能已經比人類高?
孫茂松:
對。別的我不敢講,它這個是很科學的考量任務。把物品分一千類,然后給一張照片,你可以把它歸到杯子那類,也可以說是別的,給五個答案去選。這個條件下,現在機器做的要比人好。因為一千類,有很多東西其實人可能不認識,比如問這個花是什么花,你可能不認識,機器有大數據的能力,就會做的比較好。
反正不管怎么樣,以前做這類任務都是很差的,像語音識別,倒退十五年,識別的準確率幾乎是零,到現在能做到只有9%的誤差。所以卷積神經網絡這個東西一出來,這個模型是一個通用模型,并不是只針對某個任務,拿這個圖像數據去訓練,它就能把圖像識別做好,拿語音的去實驗,就能把語音識別做好,用圍棋數據去訓練,就能把圍棋做好。
所以用卷積神經網絡去做策略,這個算法很簡單,只要有機器,跑一下就出來了。它根據整個盤面去計算,所以可以掌握所謂的“大勢”。但這個大的局面,它自己其實并不知道,它就是靠算法,最后整個神經網絡算法,就變成一個函數。網絡本身可能很復雜,但整個結構非常非常簡單。輸出是什么呢?輸出就是下一步棋,你落在哪個格子里。它就去算這個概率。剛開始所有的參數都是隨機給,但當前這個盤面,黑白這個是定勢,對吧?這個是有的,所有的參數往上算,算到最后那個輸出端,然后它去算落在每一個格上的概率。剛開始它不準,靠數據去重新反向訓練神經網絡,最后只要給個棋盤,我保證下邊落在人類專家放的那個位置的概率是最大。這個訓練很簡單,但是國內為什么做不了,因為沒有那么大的計算能力,谷歌有這個能力。這一塊其實就是機器學習最近若干年發展的一個必然趨勢。
林建超:
谷歌的硬計算能力并不領先。在超算能力上,中國實際上在十幾年前就拿到了世界冠軍。美國人現在領先的并不是硬計算能力。
孫茂松:
實際上是機器學習方法理論的突破,如果沒有機器學習理論上的突破,即使把中國最強大的計算機拿過來,你在原有的框架來做,它現在也下不過四段五段。它這個搜索能力實際上是需要在現有的基礎上,比如現在搞個計算機,比現有的計算機計算速度快一萬倍,也絲毫不解決問題
實際上算法突破,理論突破是必須的。你看蒙特卡洛搜索,其實都是這些年的理論貢獻,但真正怎么把東西給做出來,這個事情還是不容易。像FaceBook技術團隊很強大,它的老板也是做機器學習的幾大巨頭之一,但它就是做不過谷歌。所以這個應該不存在作弊問題,因為它這個模型一旦訓練完之后,它在運行的時候,人無法控制,除非是徹頭徹尾的,赤裸裸的作弊。訓練之后,設計者都不知道它下一步會下出什么樣的棋。所以理論上不存在作弊的可能性,而且以谷歌在學術上的聲譽,應該不會做這種事。
尹小林:
我想問一下,AlphaGo在每次運行時,有沒有可能調參數?比如前三盤我用100%的運算能力,后兩盤調到90%或95%,就是一盤棋下完了以后,下一盤可以調整一些參數來改變棋力?
劉知青:
這是完全有可能的。AlphaGo調參數來測試人的棋力,我覺得是完全有可能的。其實它有單機版,也有分布式版,這兩個水平不一樣。谷歌把AlphaGo跟李世石的比賽看作是對其自身技術的一個測試,而不是一個純粹意義上的比賽。李世石相當于AlphaGo的一個高級測試員,主要是去測試這個機器的能力。
孫茂松:
參數確實可以設。比如蒙特卡洛搜索,原來采樣是1%,我這回調的第一點,采樣0.1%,速度就快。再一個它單機上就可以算了,實際上是它搜索的能力會降低。但這個模型一旦訓練出來之后,基本上就不會改了。模型也是花了幾個月好不容易訓練出來的,局部一改,會變成什么樣完全沒辦法估計。
所以實際上這個東西可以做,能做的不錯,我們可以事先就估計到,但能做的這么好,確實沒有想到。機器出來以后,弄個四段五段,這個可能性我們覺得是有的,但是能和人類頂尖高手,特別是在整個布局和局部絞殺那一塊兒,能夠考慮的那么細,這個我真是沒有想到。
另外說它有BUG,我認為不是BUG的概念。第四盤輸了,有人就說有BUG,其實是它系統本身在評估的過程中就可能出現這個問題。就比如它這個搜索,隨機搜索就真的是隨機搜索。最后在若干步驟里面的正確解好像就只有20%的概率點,反正不是100%,它那一塊兒本身就有可能出問題。正好遇到靠隨機搜索搞出的解不是最理想那種狀況,就可能會出問題。
勾股定理的發明人畢達哥拉斯說:“數字是宇宙的統治者。”圍棋幾乎沒有規則,全是靠計算,最終結果全是一組一組的數。所以AlphaGo輸棋不是BUG,是其模型本身的性質,可能出昏招,也可能出奇招。搜索空間這么大,人類棋手實際上形成了一種人類高級智慧所確定的搜索范圍,搜索空間大大縮小。而AlphaGo則是全空間搜索,有可能出一些人類無法想像匪夷所思的奇招,有可能觸碰到人類慣性思維的盲區,對我們下棋會有所啟發。
這個模型除了圍棋,還可以做很多事。比如我的學生運用類似模型研發程序,訓練計算機作古詩。試舉一例,上句古人詩云“江上西風一棹歸”,下句計算機續曰“夕陽不見客舟低”。再舉一例,上句古人詩云“又聽西風墮葉聲”,下句計算機續曰“萬事盡隨天籟起”,又續云“天涯游子不勝情,江山滿眼愁多少,剩有心事緒未成”,意境、平仄、韻律都還不錯。這個古詩程序是在五十萬首古詩的數據基礎上,運用回歸神經網絡(Recurrent Neural Network)研發的。回歸神經網絡適合做語言,而卷積神經網絡適合做圖像。只要提供充分的訓練數據,這些訓練數據其實是人類知識的體現,加上優秀的算法,人工智能圍棋的水平提升是必然的。
計算機固然可以做很多事,但若讓計算機到廚房炒菜,想必就很困難了,因為環境太過復雜。圍棋則相對簡潔,棋盤縱橫十九道,色分黑白,輸入輸出都非常確定,特別適合計算機做大量運算。歸根結底,計算機體現了人的智慧。