AlphaGo之后AlphaStar又来了！继围棋后，星际2职业高手也被AI击溃-上游新闻汇聚向上的力量

观察者网消息，《星际2》，人类首战告负。

2016年3月DeepMind团队的AlphaGo击败世界围棋顶级棋手李世石，但在AlphaGo还名不见经传时，它首先是与职业棋手樊麾较量取得胜利，而如今该团队设计的新的AlphaStar同样击败了星际2的职业选手TLO和MaNa。

TLO是一位德国职业星际2选手，原名Dario Wünsch，1990年7月13日出生。现在效力于职业游戏战队Liquid。根据官方公布的数据，TLO在2018 WCS Circuit排名：44。

（德国职业星际2选手TLO）

MaNa是一位出生于波兰的职业星际2选手，原名Grzegorz Komincz，1993年12月14日出生，目前也效力于Liquid。MaNa去年获得WCS Austin的第二名。根据官方公布的数据，他在2018 WCS Circuit排名：13。

（波兰的职业星际2选手MaNa）

1月25日，DeepMind 的AI AlphaStar 首次亮相。DeepMind 公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程：AlphaStar 分别以5:0的成绩战胜了两位职业选手 TLO 和 MaNa 。

最后直播的一场比赛中，DeepMind限制了AlphaStar的游戏视角，并在没有测试的前提下与MANA进行比赛，让人类终于赢了一场。

如何打造AlphaStar

对于如何训练AlphaStar，DeepMind 科学家 Oriol Vinyals、David Silver 表示，首先是模仿学习，团队从许多选手那里获得了很多比赛回放资料，并试图让 AI 通过观察一个人所处的环境，尽可能地模仿某个特定的动作，从而理解星际争霸的基本知识。这其中所使用到的训练资料不但包括专业选手，也包括业余选手。这是 AlphaStar 成型的第一步。

AlphaStar学会打星际，全靠深度神经网络，这个网络从原始游戏界面接收数据 (输入) ，然后输出一系列指令，组成游戏中的某一个动作。

再说得具体一些，神经网络结构对星际里的那些单位，应用一个Transformer，再结合一个深度LSTM核心，一个自动回归策略 (在头部) ，以及一个集中值基线 (Centralised Value Baseline)。

团队会使用一个称为“Alpha League”的方法。在这个方法中，Alpha League 的第一个竞争对手就是从人类数据中训练出来的神经网络，然后进行一次又一次的迭代，产生新的 agent 和分支，用以壮大“Alpha League”。

然后，这些 agent 通过强化学习过程与“Alpha League”中的其他竞争对手进行比赛，以便尽可能有效地击败所有这些不同的策略，此外，还可以通过调整它们的个人学习目标来鼓励竞争对手朝着特定方式演进，比如说旨在获得特定的奖励。

最后，团队在“Alpha League”中选择了最不容易被利用的 agent，称之为“the nash of League”。

AI打星际2意味着什么

早在2003年人类就开始尝试用AI解决即时战略（RTS）游戏问题。那时候AI还连围棋问题还没有解决，而RTS比围棋还要复杂。

直到2016年，“阿尔法狗”打败了李世石。DeepMind在解决围棋问题后，很快把目光转向了《星际2》。

与国际象棋或围棋不同，星际玩家面对的是“不完美信息博弈”。

在玩家做决策之前，围棋棋盘上所有的信息都能直接看到。而游戏中的“战争迷雾”却让你无法看到对方的操作、阴影中有哪些单位。

这意味着玩家的规划、决策、行动，要一段时间后才能看到结果。这类问题在现实世界中具有重要意义。

为了获胜，玩家必须在宏观战略和微观操作之间取得平衡。

平衡短期和长期目标并适应意外情况的需要，对脆弱和缺乏灵活性的系统构成了巨大挑战。

掌握这个问题需要在几个AI研究挑战中取得突破，包括:

• 博弈论：星际争霸没有单一的最佳策略。因此，AI训练过程需要不断探索和拓展战略知识的前沿。

• 不完美信息：不像象棋或围棋那样，棋手什么都看得到，关键信息对星际玩家来说是隐藏的，必须通过“侦察”来主动发现。

• 长期规划：像许多现实世界中的问题一样，因果关系不是立竿见影的。游戏可能需要一个小时才能结束，这意味着游戏早期采取的行动可能在很长一段时间内都不会有回报。

• 实时：不同于传统的棋类游戏，星际争霸玩家必须随着游戏时间的推移不断地执行动作。

• 更大的操作空间：必须实时控制数百个不同的单元和建筑物，从而形成可能的组合空间。此外，操作是分层的，可以修改和扩充。

为了进一步探索这些问题，DeepMind与暴雪2017年合作发布了一套名为PySC2的开源工具，在此基础上，结合工程和算法突破，才有了现在的AlphaStar。

除了DeepMind以外，其他公司和高校去年也积极备战：

• 4月，南京大学的俞扬团队，研究了《星际2》的分层强化学习方法，在对战最高等级的无作弊电脑情况下，胜率超过93%。

• 9月，腾讯AI Lab发布论文称，他们构建的AI首次在完整的虫族VS虫族比赛中击败了星际2的内置机器人Bot。

• 11月，加州大学伯克利分校在星际2中使用了一种新型模块化AI架构，用虫族对抗电脑难度5级的虫族时，分别达到 94%（有战争迷雾）和 87%（无战争迷雾）的胜率。

DeepMind CEO哈萨比斯在赛后说，虽然星际争霸“只是”一个非常复杂的游戏，但他对AlphaStar背后的技术更感兴趣。其中包含的超长序列的预测，未来可以用在天气预测和气候建模中。

原标题：星际2职业高手史上首次被AI击溃 AlphaStar一战成名

【免责声明】上游新闻客户端未标有“来源：上游新闻-重庆晨报”或“上游新闻LOGO、水印的文字、图片、音频视频等稿件均为转载稿。如转载稿涉及版权等问题，请与上游新闻联系。

AlphaGo之后AlphaStar又来了！继围棋后，星际2职业高手也被AI击溃

长春红旗街万达广场爆炸案告破：患癌男子悲观厌世，引爆自制爆炸物

坑妈boy高速上一言不合竟跳车，还说亲妈是人贩子：她不让我参加聚会

大婶，奥运会了解一下？熊孩子惹老妈生气，30米外被扔拖鞋命中

女生未付6.8元车费凌晨4点被赶下车 冻死在零下20度荒野

张继科退出世乒赛直通赛，马龙、樊振东、许昕等人参加

推动媒体融合发展，习近平提到这三“新”

习近平向全国新闻工作者致以新春慰问

小卖铺出售奖状2元一张，小学生争相购买忽悠家长

男子试驾宝马得瑟：想低调可实力不允许！1小时后实力翻车…

韩国歌手黄致列为吐槽中国空气水质致歉：以后会注意言行

王毅谈华为事件∶动用国家力量抹黑打压企业，不公正不道德

见过“海啸炒饭”吗？ 网友接力再创作：你们真会玩啊

特朗普签署短期支出法案，美政府关门正式结束

“雄赳赳气昂昂跨过鸭绿江”词作者麻扶摇逝世 享年92岁

10米路程变更两条车道 小轿车被撞横在路面

春运期间重庆高速公路路网车流量或达4150万辆

快看！川金丝猴一家三口来重庆安家了

​现在流行拼寒假作业吗？这所学校要手绘中国史，还要做腊肉豆腐乳

霍格沃茨的书店现身重庆？打卡这个书店小心被转晕

重庆有哪些老品牌，你还记得吗？

重庆珍档 | 操练较场与居民区自由切换，重庆较场口的过往传奇

重庆这些“怪小吃”，才是真正的美味

春节返乡千万别坐“黑车” 有乘客不堪加价想走被打伤

轮渡打卡客注意了 大竹林至朝天门航线航班时间有调整

今天起 重庆市民可预订节后返程汽车票

重庆主城有多少地方与邹容有关，你知道吗？

西永派出所发还13辆被盗摩托车

重庆这10个好耍还不要门票的公园，不妨春节去转转！

八旬老太迷路拒绝民警送回家，便衣尾随1小时护其安全

“雄赳赳气昂昂跨过鸭绿江”词作者麻扶摇逝世 享年92岁

屠呦呦入围BBC20世纪最具标志性人物 与爱因斯坦居里夫人并列

心机满满？梅根王妃在镜头前频频做出这个动作

马云：阿里成功的秘诀就是多招女性

俞敏洪回应新东方年会吐槽视频：能传出就是我的态度，创作者要奖励！

里皮若早来国足已进世界杯？正赛胜率仅次于米卢

郑智：以这种方式输球太不甘，想跟球迷说句对不起

里皮赛后宣布离任：今晚对于球员没有任何感谢

达沃斯论坛马云再爆金句：年轻人爱手机支付主要是因为穷

阿里CEO张勇：乐趣来源于创造价值而不是毁灭别人

林清玄走了，他的这些作品你还记得吗？

梁建章：房价是一个很重要的避孕药 建议加大城市供地

闪电博尔特闪电般告别足坛：出场2次进2球，将进军商界

物理学家曹则贤：异地恋不科学，物理没学好谈恋爱都费劲

美国亿万富豪库班：只想早退休开party 环游世界

窃取微信关系链？抖音：系谣言

新东方“唱歌吐槽”得奖12万背后：冒着离职风险，全是心酸

网购年货呈新趋势：守着零点开抢 围观直播囤年货

重庆小康跑进达沃斯！“私人定制”智能电动车要不要来一辆？

跌穿挖矿成本！比特币全球矿场“除了中国以外都在亏损”

本周资本市场最青睐IT行业，最大的一笔3.5亿美元融资投给了教育机构

共享充电宝：黎明前的黑暗？

1-10落败，5分钟崩盘，星际2职业高手史上首次被AI击溃

国内油价28日或迎“两连涨” ，春节出行可提前加油

中国银行成功发行首单无固定期限资本债券

猪币问世大涨15% 改革币和70年钞涨得更高

尺度超大，太敢说了！这歌diss老板俞敏洪却获奖12万……你家领导有没有这大肚量？

恭喜你没有拖后腿！国家统计局：月收入2000-5000元为中等收入群体

重庆每百人有120部手机 2018年全国固定电话用户少了1151万

重庆股转中心搭建融资平台 民企有望拿到向机构路演入场券

本周热榜

汽车

教育

美家

楼市

视频

女生未付6.8元车费凌晨4点被赶下车冻死在零下20度荒野

见过“海啸炒饭”吗？网友接力再创作：你们真会玩啊

“雄赳赳气昂昂跨过鸭绿江”词作者麻扶摇逝世享年92岁

10米路程变更两条车道小轿车被撞横在路面

现在流行拼寒假作业吗？这所学校要手绘中国史，还要做腊肉豆腐乳

轮渡打卡客注意了大竹林至朝天门航线航班时间有调整

今天起重庆市民可预订节后返程汽车票

“雄赳赳气昂昂跨过鸭绿江”词作者麻扶摇逝世享年92岁

屠呦呦入围BBC20世纪最具标志性人物与爱因斯坦居里夫人并列

梁建章：房价是一个很重要的避孕药建议加大城市供地

网购年货呈新趋势：守着零点开抢围观直播囤年货

重庆股转中心搭建融资平台民企有望拿到向机构路演入场券