共找到2條詞條名為阿爾法狗的結果 展開
- 谷歌人機大戰機器人AlphaGo
- 領頭狗
阿爾法狗
谷歌人機大戰機器人AlphaGo
阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧機器人,由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領銜的團隊開發。其主要工作原理是“深度學習”。
2016年3月,阿爾法圍棋與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝;2016年末2017年初,該程序在中國棋類網站上以“大師”(Master)為註冊賬號與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績;2017年5月,在中國烏鎮圍棋峰會上,它與排名世界第一的世界圍棋冠軍柯潔對戰,以3比0的總比分獲勝。圍棋界公認阿爾法圍棋的棋力已經超過人類職業圍棋頂尖水平,在GoRatings網站公布的世界職業圍棋排名中,其等級分曾超過排名人類第一的棋手柯潔。
2017年5月27日,在柯潔與阿爾法圍棋的人機大戰之後,阿爾法圍棋團隊宣布阿爾法圍棋將不再參加圍棋比賽。2017年10月18日,DeepMind團隊公布了最強版阿爾法圍棋,代號AlphaGo Zero。
2017年7月18日,教育部、國家語委在北京發布《中國語言生活狀況報告(2017)》,“阿爾法圍棋”入選2016年度中國媒體十大新詞。
李世石與阿爾法圍棋人機大戰
阿爾法圍棋用到了很多新技術,如神經網路、深度學習、蒙特卡洛樹搜索法等,使其實力有了實質性飛躍。美國臉書公司“黑暗森林”圍棋軟體的開發者田淵棟在網上發表分析文章說,阿爾法圍棋系統主要由幾個部分組成:一、策略網路(Policy Network),給定當前局面,預測並採樣下一步的走棋;二、快速走子(Fast rollout),目標和策略網路一樣,但在適當犧牲走棋質量的條件下,速度要比策略網路快1000倍;三、價值網路(Value Network),給定當前局面,估計是白勝概率大還是黑勝概率大;四、蒙特卡洛樹搜索(Monte Carlo Tree Search),把以上這三個部分連起來,形成一個完整的系統。
柯潔與阿爾法圍棋人機大戰
第一大腦:落子選擇器(Move Picker)
阿爾法圍棋(AlphaGo)的第一個神經網路大腦是“監督學習的策略網路(Policy Network)” ,觀察棋盤布局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳概率,那麼最前面猜測的就是那個概率最高的。這可以理解成“落子選擇器”。
第二大腦:棋局評估器(Position Evaluator)
阿爾法圍棋(AlphaGo)的第二個大腦相對於落子選擇器是回答另一個問題,它不是去猜測具體下一步,而是在給定棋子位置情況下,預測每一個棋手贏棋的概率。這“局面評估器”就是“價值網路(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對於閱讀速度提高很有幫助。通過分析歸類潛在的未來局面的“好”與“壞”,阿爾法圍棋能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那麼AI就跳過閱讀。
這些網路通過反覆訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以人們是不可能精確知道網路是如何“思考”的,但更多的訓練后能讓它進化到更好。
阿爾法圍棋(AlphaGo)為了應對圍棋的複雜性,結合了監督學習和強化學習的優勢。它通過訓練形成一個策略網路(policy network),將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分佈。然後,訓練出一個價值網路(value network)對自我對弈進行預測,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。這兩個網路自身都十分強大,而阿爾法圍棋將這兩種網路整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現了它真正的優勢。新版的阿爾法圍棋產生大量自我對弈棋局,為下一代版本提供了訓練數據,此過程循環往複。
在獲取棋局信息后,阿爾法圍棋會根據策略網路(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模擬過程中被系統最頻繁考察的位置將成為阿爾法圍棋的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩后,阿爾法圍棋的搜索演演算法就能在其計算能力之上加入近似人類的直覺判斷。
2017年1月,谷歌DeepMind公司CEO哈薩比斯在德國慕尼黑DLD(數字、生活、設計)創新大會上宣布推出真正2.0版本的阿爾法圍棋。其特點是擯棄了人類棋譜,只靠深度學習的方式成長起來挑戰圍棋的極限。
AlphaGo Zero強化學習下的自我對弈
AlphaGoZero的能力則在這個基礎上有了質的提升。最大的區別是,它不再需要人類數據。也就是說,它一開始就沒有接觸過人類棋譜。研發團隊只是讓它自由隨意地在棋盤上下棋,然後進行自我博弈。
據阿爾法圍棋團隊負責人大衛·席爾瓦(Dave Sliver)介紹,AlphaGoZero使用新的強化學習方法,讓自己變成了老師。系統一開始甚至並不知道什麼是圍棋,只是從單一神經網路開始,通過神經網路強大的搜索演演算法,進行了自我對弈。隨著自我博弈的增加,神經網路逐漸調整,提升預測下一步的能力,最終贏得比賽。更為厲害的是,隨著訓練的深入,阿爾法圍棋團隊發現,AlphaGoZero還獨立發現了遊戲規則,並走出了新策略,為圍棋這項古老遊戲帶來了新的見解。
AlphaGoZero僅用了單一的神經網路。在此前的版本中,AlphaGo用到了“策略網路”來選擇下一步棋的走法,以及使用“價值網路”來預測每一步棋后的贏家。而在新的版本中,這兩個神經網路合二為一,從而讓它能得到更高效的訓練和評估。
AlphaGoZero並不使用快速、隨機的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,來預測哪個玩家會從當前的局面中贏得比賽。相反,新版本依靠地是其高質量的神經網路來評估下棋的局勢。
研究者讓“阿爾法圍棋”和其他的圍棋人工智慧機器人進行了較量,在總計495局中只輸了一局,勝率是99.8%。它甚至嘗試了讓4子對陣CrazyStone、Zen和Pachi三個先進的人工智慧機器人,勝率分別是77%、86%和99%。
2017年5月26日,中國烏鎮圍棋峰會舉行人機配對賽。對戰雙方為古力/阿爾法圍棋組合和連笑/阿爾法圍棋組合。最終連笑/阿爾法圍棋組合逆轉獲得勝利。
李世石阿爾法圍棋人機大戰現場
2016年3月9日到15日,阿爾法圍棋程序挑戰世界圍棋冠軍李世石的圍棋人機大戰五番棋在韓國首爾舉行。比賽採用中國圍棋規則,最終阿爾法圍棋以4比1的總比分取得了勝利。
阿爾法圍棋戰勝圍棋世界冠軍團隊
2017年5月23日到27日,在中國烏鎮圍棋峰會上,阿爾法圍棋以3比0的總比分戰勝排名世界第一的世界圍棋冠軍柯潔。在這次圍棋峰會期間的2017年5月26日,阿爾法圍棋還戰勝了由陳耀燁、唐韋星、周睿羊、時越、羋昱廷五位世界冠軍組成的圍棋團隊。
AlphaGo-Zero的訓練時間軸
AlphaGo的幾個版本
戴密斯·哈薩比斯(Demis Hassabis),人工智慧企業家,DeepMind Technologies公司創始人,人稱“阿爾法圍棋之父”。4歲開始下國際象棋,8歲自學編程,13歲獲得國際象棋大師稱號。17歲進入劍橋大學攻讀計算機科學專業。在大學里,他開始學習圍棋。2005年進入倫敦大學學院攻讀神經科學博士,選擇大腦中的海馬體作為研究對象。兩年後,他證明了5位因為海馬體受傷而患上健忘症的病人,在暢想未來時也會面臨障礙,並憑這項研究入選《科學》雜誌的“年度突破獎”。2011年創辦DeepMind Technologies公司,以“解決智能”為公司的終極目標。
阿爾法圍棋設計團隊部分成員
除上述人員之外,阿爾法圍棋設計團隊核心人員還有黃士傑(Aja Huang)、施恩·萊格(Shane Legg)和穆斯塔法·蘇萊曼(Mustafa Suleyman)等。
“阿爾法圍棋”(AlphaGo)能否代表智能計算髮展方向還有爭議,但比較一致的觀點是,它象徵著計算機技術已進入人工智慧的新信息技術時代(新IT時代),其特徵就是大數據、大計算、大決策,三位一體。它的智慧正在接近人類。
谷歌Deep mind首席執行官(CEO)戴密斯·哈薩比斯宣布“要將阿爾法圍棋(AlphaGo)和醫療、機器人等進行結合”。因為它是人工智慧,會自己學習,只要給它資料就可以移植。
據韓國《朝鮮日報》報道,為實現該計劃,哈薩比斯2016年初在英國的初創公司“巴比倫”投資了2500萬美元。巴比倫正在開發醫生或患者說出癥狀后,在網際網路上搜索醫療信息、尋找診斷和處方的人工智慧APP(應用程序)。如果阿爾法圍棋(AlphaGo)和“巴比倫”結合,診斷的準確度將得到劃時代性提高。
在柯潔與阿爾法圍棋的圍棋人機大戰三番棋結束后,阿爾法圍棋團隊宣布阿爾法圍棋將不再參加圍棋比賽。阿爾法圍棋將進一步探索醫療領域,利用人工智慧技術攻克現實現代醫學中存在的種種難題。在醫療資源的現狀下,人工智慧的深度學習已經展現出了潛力,可以為醫生提供輔助工具。實際上,對付人類棋手從來不是“阿爾法圍棋”的目的,開發公司只是通過圍棋來試探它的功力,而研發這一人工智慧的最終目的是為了推動社會變革、改變人類命運。據悉,他們正積極與英國醫療機構和電力能源部門合作,以此提高看病效率和能源效率。
中國圍棋職業九段棋手聶衛平:“Master(即阿爾法圍棋升級版)技術全面,從來不犯錯,這一點是其最大的優勢,人類要打敗它的話,必須在前半盤領先,然後中盤和官子階段也不容出錯,這樣固然很難,但客觀上也促進了人類棋手在圍棋技術上的提高。”
世界排名第一的圍棋世界冠軍柯潔:“在我看來它(指阿爾法圍棋)就是圍棋上帝,能夠打敗一切。”“對於AlphaGo的自我進步來講,人類太多餘了。”
復旦大學計算機科學技術學院教授、博士生導師危輝:“人機大戰對於人工智慧的發展意義很有限。解決了圍棋問題,並不代表類似技術可以解決其他問題,自然語言理解、圖像理解、推理、決策等問題依然存在,人工智慧的進步被誇大了。”
中國圍棋世界冠軍唐韋星:“看了之後不知道說什麼,它(AlphaGo)確實不需要我們的知識,之前版本用了好幾年,被這個才學了40天的打敗似乎就是我們拖後腿了。”
五子棋棋手吳侃:“有時候感覺對AlphaGo的評價過於高了,人類也不需要把其奉為神明,但不可否認,AlphaGo的出現給圍棋界帶來了巨大的震動。”
2020年當地時間8月7日,美國國防部高級研究計劃局(DARPA)宣布,由於新冠疫情影響,今年的“阿爾法狗斗試驗”(AlphaDogfight)決賽將從線下移到線上,這場原定於今年4月舉行的決賽屆時將在8月18日-20日進行全程現場直播。