打败DOTA2顶级玩家的机器人到底强在哪?
最近AI圈发生了两件大事。第一件是DeepMind、Facebook等AI巨头对《星际争霸》研究兴趣浓厚,公开发布研究工具和数据;第二件是Open AI的机器人在dota2比赛中战胜了人类顶级职业玩家。
至此,继横扫人类国际象棋大师和围棋大师后,人工智能如今又将风靡全球的电子竞技游戏Dota2攻陷。可以预见,在很短的将来,万众瞩目的《王者荣耀》顶级玩家,也会被人工智能打败。
DeepMind等公司已经在《星际争霸》上研究了一段时间,但目前为止,根据前不久刚刚发布的最新进展,相关研究还没有取得重大突破。
倒是OpenAI公司打败DOTA人类顶级职业玩家,率先取得令人兴奋的成就,一跃成为AI圈中的热点。
回顾赛事,OpenAI公司的机器人表现可以说是非常“强悍”,出手“快”、“准”、“狠”,手法娴熟,不仅会卡兵、补刀,还会取消掉技能抬手,而且具有强烈的攻击性,连续两局狂虐Dendi。
OpenAI的工程师表示,他们对机器人训练了2周,就获得了足以击败全球最佳Dota 2专业玩家的能力。
伊隆·马斯克看了战况之后,抑制不住内心激动,在推特上公开宣称:OpenAI搞出了史上首个击败电子竞技顶级玩家的人工智能。这比搞国际象棋和围棋什么的复杂多了。
这次打败DOTA人类选手比赛的难度究竟有多大?
虽然OpenAI公司没有公布更多细节,不过,我们可以根据已有的信息进行客观评价。
1、属于多人在线战术竞技游戏(MOBA)中的单人模式。这次是在中路进行影魔的SOLO对决,属于1V1遭遇战模式,需要战争迷雾隐藏的信息较少,与5V5模式在难度上还有较大差距。
正常的DOTA 2游戏中,2支对抗队伍各由5名玩家组成,游戏过程中需要随时调整作战策略、需要大量的团队沟通和协调,任意一名玩家都可以随时根据战况,召唤其他队友组织支援、抓捕或埋伏,突发情况多、对抗较为激烈,相互配合和节奏的把握非常重要,比赛时长通常要45分钟。
在1v1模式中,击败对手主要靠机械技能和短期策略,并不涉及长期规划和协调,而后者才是对当前AI技术来说最具挑战性的部分。因此,OpenAI计划在明年推出可以进行5V5协同作战的更高智能的机器人。
2、相比围棋,DOTA对战中机器人的反应时间占据优势。AlphaGo和柯洁对战时,双方时间都是3小时,时间的增加,有利于人类棋手发挥。
实际上,时间长短对于AlphaGo来说并不重要,因为它每一步棋的决策时间最多只需10秒。这次DOTA对战则不同,人类选手直面机器人,需要几乎在一瞬间大致估计出与对手之间的距离,是否进行攻击、是否值得背水一战,再通过神经系统发出信号控制双手操纵鼠标和键盘,这一连串的动作需要耗费大量时间。
OpenAI机器人可以获得精准的对手位置、技能冷却时间信息,并迅速计算出准确的攻击时间节点,确保将对手一击致命。仔细观察对战过程,你可以看到,机器人有几次攻击都是在最大距离上展开,最后在短短10分钟赢得对战。
为何马斯克对机器人的这次成功这么看重?
“自我对局”(Self-play)的理念是OpenAI研发的关键。OpenAI的机器人整个学习过程随机开始,并且通过和自己对抗进行学习。OpenAI的CTO Greg Brockman介绍,技术人员通过神经网络对机器人进行了数千次的自我对局进行训练。自我对局的参与人选择针对其对手的平均行为的最佳反应。
因此,OpenAI研发的机器人,可以从完全的随机状态一步步发展到如今的世界顶级水平。虽然这并不是最新最前沿的理论,但令人的震惊的是,机器人学会了人类玩家已经在使用的技术,并吸收为自己所用,并用来打败人类玩家。
谷歌公司开发的AlphaGo在打败了人类顶级选手李世石、柯洁之后,宣布永久退出围棋比赛。同样,OpenAI公司开发这样一个机器人,并不是为了打败DOTA人类职业玩家这么简单。
自主学习游戏规则,通过自我对局进行训练,能够掌握复杂***游戏的机器人可以有其他更广阔的用途。最直接的例子是,围棋选手已经开始学习AlphaGo机器人的下棋方式。
同样,一些DOTA游戏玩家开始利用OpenAI公司机器人进行日常训练。智能机器人可以为游戏娱乐产业提供更多价值,游戏娱乐也会助推人工智能技术快速发展。
AI公司的目标:建立更加通用的智能系统
显然,OpenAI公司的雄心不止于此,“我们所建立的是一个普遍的学习系统,尽管它在很多方面仍然受到限制,但它仍然能击败最优秀的人类专家,”Brockman说,“这是朝着向建立更通用的系统迈出的关键一步,它可以学习真正复杂的、重要的现实世界里的任务,比如做一名外科医生。”
不仅在电子竞技、医疗领域,OpenAI公司的这项技术在家政服务机器人领域和军用机器人领域可能会发挥更大的价值。
最近人民网报道,有网友买扫地机器人后泪崩,仿佛买了一个智障,肆意展示各种蠢萌技能:扫地2年了,每天都会在在盥洗室地毯上被卡住,在沙发拐角上被卡住,在各种意想不到的角度上被卡住,和各种桌子腿过不去。
目前在售的这类扫地机器人有一个救命技能,被卡住了就发求救信号,让人把它搬出来,感觉它的主业不是打扫卫生,而是负责搞笑卖萌。
可以预见,采用“自我对局”(Self-play)理念来提升扫地机器人的学习能力,可以在随机探索整个室内环境的过程中,通过和自己、和家庭环境进行对抗学习,不断提升对整体环境的感知应对能力,最终达到人类保洁水平。
进行更大强度的训练,甚至可以成为一个顶级的家庭卫生保洁员,避免因为被卡住频频向人类求助的窘迫,成为真正意义上的智能家居产品。
在军用领域,“自我对局”(Self-play)的设计理念同样大有可为。2015年9月,美国海军陆战队开始测试谷歌旗下机器人公司波士顿动力开发出的新一代机械狗Spot,而这款机械狗的“前辈”BigDog早就在2014年在夏威夷投入使用了。
这只机器狗只是被看成是可以执行侦察和搜索任务军犬的替代品。准确来说,这不仅仅是一条军犬,进行深度改造后,可以变为一个可以在战区和灾区提供导航,执行搜索任务,排查建筑物危险,装备上武器就可以作战的超级士兵。
同样是激烈的对战环境,在DOTA2中可以迅速准确评估战况、动作灵活、攻击性强的OpenAI公司机器人给我们展示了其强大的学习、超越能力,借鉴和改进机器人背后的通用学习系统,用来提升军用机器人的学习能力、侦查作战能力,对于保存军队有生力量具有重要意义。
创办特斯拉公司大获成功的硅谷奇才伊隆·马斯克,可能正是看中了这项技术蕴含的潜在巨大商业价值而兴奋不已。