無所不談: AlphaGo Zero自學圍棋三天創棋步

AlphaGo Zero自學圍棋 三天創棋步

2017-10-20 自由時報

〔編譯陳正健／綜合報導〕網路搜尋引擎巨擘谷歌（Google）旗下的英國科技公司「Google DeepMind」十八日在英國期刊《自然》發表論文指出，已開發出新版的人工智慧圍棋程式，名為「AlphaGo Zero」，能在三天內就「自學」精通圍棋，無須以人類為師，且能自創新的棋步，完勝舊版「AlphaGo」。

領導此一最新人工智慧程式發展的研究員席佛（David Silver）指出，「AlphaGo Zero」能夠從零開始自學，只要告知規則後，完全靠自己與自己對戰數百萬回棋賽，從中發現致勝策略。相較之下，舊版「AlphaGo」需先從人類棋手的幾千回對戰資料中學習，之後才能與自己下棋。

經過三天訓練的「AlphaGo Zero」先在對弈中完勝二○一五年版的「AlphaGo」，比數是一百比零。二○一五年版「AlphaGo」是在二○一六年三月，與十八次贏得世界棋王的李世石對戰時，以四勝一敗戰績震驚世人而聞名於世。隨後「AlphaGo Zero」再接受四十天的訓練，又擊敗升級版的「AlphaGo」，該升級版「AlphaGo」與中國圍棋世界冠軍柯潔在今年五月對戰三場全勝。

得知此消息的柯潔十九日在微博上感嘆表示，「一個純淨、純粹自我學習的AlphaGo是最強的……對於AlphaGo的自我進步來講……人類太多餘了」。

AI棋藝 是靠反覆演算

席佛十八日透過視訊解釋「AlphaGo Zero」的運作，是靠「強化學習法」（reinforcement learning），從反覆嘗試中精通棋藝，程式中設有獎勵機制，自我對弈時只要下了好棋，就會得到正分，反之會得負分。

研究人員在《自然》中指出，「AlphaGo Zero」不僅重新發現人類傾向使用的共同模式與開局棋步，而且還拋棄這些棋招，自創人們未知的新招。Google DeepMind共同創辦人兼執行長哈薩比斯在部落格上指出， 有別於先前版本，「AlphaGo Zero」已不再受到人類知識限制。

「AlphaGo Zero」的程式核心是一套神經網路系統，哈薩比斯強調，許多人以為機器學習與大數據有關，但在「AlphaGo Zero」根本不是這麼回事，「演算法反而更重要」。和擊敗李世石的程式相比，「AlphaGo Zero」只使用一部機器，有四個資料處理器，「AlphaGo」則使用多部機器，有四十八個資料處理器。

英國謝菲爾德大學計算神經科學學者瓦西拉基強調，電腦能在複雜及精準的比賽中擊敗人類，但在其他項目上仍無法與人類相比，機器人只能從事走路、跑步及踢球等活動，這些對人類都是極其簡單之任務。

哈薩比斯則表示，人工智慧在多項任務上要與人類匹敵，仍有很長一段路要走。預計未來十年將用於幫助人類發現新藥和物質、粒子物理學，解開粒子物理學的謎團。

無所不談

2017年10月19日星期四

AlphaGo Zero自學圍棋三天創棋步

沒有留言:

張貼留言

2017年10月19日 星期四

AlphaGo Zero自學圍棋 三天創棋步

沒有留言:

張貼留言

2017年10月19日星期四

AlphaGo Zero自學圍棋三天創棋步