① AlphaGo主要使用的技術是什麼
AlphaGo主要使用的技術是專家系統。
Alphago屬於人工智慧應用領域中的計算機博弈。阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧機器人,由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領銜的團隊開發。其主要工作原理是「深度學習」。
2017年7月18日,教育部、國家語委在北京發布《中國語言生活狀況報告(2017)》,「阿爾法圍棋」入選2016年度中國媒體十大新詞。
操作過程
阿爾法圍棋(AlphaGo)為了應對圍棋的復雜性,結合了監督學習和強化學習的優勢。它通過訓練形成一個策略網路(policy network),將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分布。
然後,訓練出一個價值網路(value network)對自我對弈進行預測,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標准,預測所有可行落子位置的結果。
這兩個網路自身都十分強大,而阿爾法圍棋將這兩種網路整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現了它真正的優勢。新版的阿爾法圍棋產生大量自我對弈棋局,為下一代版本提供了訓練數據,此過程循環往復。
② 阿爾法圍棋的程序原理
谷歌為AlphaGo設計了兩個神經網路:「決策網路」(policy network)負責選擇下一步走法, 「值網路」(value network)則預測比賽勝利方,用人類圍棋高手的三千萬步圍棋走法訓練神經網路。與此同時,AlphaGo也自行研究新戰略,在它的神經網路之間運行了數千局圍棋,利用反復試驗調整連接點,完成了大量研究工作。