当前位置:首页 >  游戏

AlphaGo遥指通用AI:一个算法攻陷三大棋类游戏,成为棋类游戏终结者

2019-10-13 

本周Science封面

更通用的游戏九乐棋牌系统

从计算机时代的早期开始,游戏就被认为是人工智能研究的重要载体。游戏简化了现实世界中的问题,同时保留了足够的复杂性挑战人类与机器。

曾经,大多数棋类游戏的程序是人工设计的。利用先进的搜索方法、复杂的评估功能以及各种技巧,很多程序已经能够超越最优秀的人类玩家。

早在1997年,IBM的计算机“深蓝”击败了俄籍世界国际象棋冠军,近20年后,2015年10月,AlphaGo在难度超高的围棋比赛中,终于在无需让子的情况下,历史性地击败了围棋职业棋手,登上科学期刊Nature。此后,AlphaGo的发展进入快车道,2017年10月,AlphaGo的升级版AlphaGo Zero登上Nature,这是一个没有用到人类数据的版本,它通过与自己对战,超越了世界上最强的棋手与程序。

2017年12月,Alpha Zero发布,它使用与AlphaGo Zero类似的方法,但是更加通用,不仅自学了围棋,还学会了国际象棋和日本将棋,成为掌握了三种世界上最难棋类游戏的人工智能,彼时发布在网上预印本系统arXiv上。经过了严格的评审过程后,2018年12月7日的Science杂志作为封面内容报道了AlphaZero。

AlphaZero依然使用AlphaGo Zero的框架:深度强化学习加蒙特卡洛树搜索。利用5064个TPU的强大计算资源,在24小时内,自我对弈,总体击败了在单项领域中的最强程序。

在学欧博平台习每个棋种的时候,系统在自我对弈的胜负中学习,以调整神经网络的参数,使其更可能在未来选择有利的动作。训练量大小取决于比赛的风格和复杂程度,对于AlphaZero来说,国际象棋的训练大约需要9小时,日本中华娱乐将棋的训练需要12天,围棋则需要13天。

在国际象棋比赛中,AlphaZero在4小时后第一次击败了国际象棋最强程序Stockfish;在日本将棋比赛中,2小时后击败了日本将棋的最强程序Elmo;在围棋比赛中,30小时后首次战胜了与李世石对战的AlphaGo v18。

针对AlphaZero这一成果,曾经参与构建了IBM“深蓝”系统的IBM研究院研究员Murray Campbell发表了评论文章,他指出,相比此前的AlphaGo和AlphaGo Zero,AlphaZero更加具有通用性,仅根据规则,通过自我对弈就能在较短的时间内,在多种棋类达到顶级水平。

同时,他认为AlphaZero算是棋类AI的终结者,未来研究人员需要挑战的是新一代游戏。

质疑与褒奖

在AlphaZero最早出现的时候,褒奖与质疑同时出现。有人质疑AlphaZero在与国际象棋和日本将棋的对战中,处于不公平的比赛环境。因为国际象棋程序Stockfish和日本将棋程序Elmo都无法利用AlphaZero设计使用的TPU硬件。

Deepmind对比赛环境进行了解中华娱乐释,在其今日发表的博客中,写道:每一个程序都在为其设计的硬件上运行,Stockfish和Elmo使用44个CPU,而AlphaZero和AlphaGo Zero使用了4个一代TPU和44个CPU。

棋手们对AlphaZero多有赞扬,前国际象棋世界冠军Garry Kasparov称:“飞机不会像鸟一样拍打翅膀,机器也不像人类一样下棋……这些自学成才的专家机器不仅仅有出色的表现,而且我们可以从它们所产生的知识中学到更多。”

AlphaZero能够同时精通三种棋类(图片来源:Science)

被认为是日本将棋最优秀棋士的Yoshiharu Habu认为:“AlphaZero的很多下法违背了人类眼中的将棋理论,比如它会将国王移到棋盘中心,这看上去会使AlphaZero处于危险的地位。但令人难以置信的是,它仍然能够掌控整个棋局,其独特的游戏风格让我们看到了新的可能性。”

终结棋类AI,阿尔法的下一步

就像Murray Campbell所说,AlphaZero似乎代表着棋类AI走到了尽头,游戏类AI的下一步需要挑战新的类型。他在文章中表示,国际象棋、日本将棋以及围棋都非常复杂,但同时它们相比其它种类的游戏更容易被计算机解决。例如,棋类游戏中只有两名棋手,具有确定性、静态、离散的特点,这些特点让蒙特卡罗树搜索有了用武之地。

多人视频游戏,如星际争霸、Dot白金会a2已经被提议作为下一个游戏挑战对象,它们部分可见、是不完全信息的博弈、具有非常大的搜索空间和大量的动作集。

不过哈萨比斯的目光绝不仅放在游戏这一领域,就在前几日,Alpha系列将眼光放在了科学研究领域,Deepmind的最新人工智能程序AlphaFold进入生命科学领域,首次参加了全球蛋白质结构预测竞赛,一出手就击败了其它所有对手,在98个参赛队伍中排名第一,在预测的43种蛋白质结构中,有25种最为准确。从游戏到解决科学问题,哈萨比斯认为,这对于Deepmind来说,是一个非常关键的时刻,这是其在人力和资源方面的第一个重大投资,也是非常重欧博平台要的、现实世界的科学问题。

哈萨比斯曾经在接受《卫报》采访时说出了对未来的展望,他认为超级智能的机器将与人类专家合作解决任何问题,包括癌症、气候变化、能源、基因组学、宏观经济学、金融系统、物理学。他说:“我们需要掌握的许多系统都变得愈加复杂,信息超载使得最聪明的人也很难再一生中掌握它。”他认为未开元棋牌来通用人工智能将有所帮助,虽然也许这个时间还需要几十年。

原始论文:

http://science.sciencemag.org/content/362/6419/1140


《环球科学》2019全年订阅开启

点击“阅读原文”立即购买