当前位置: 首页 > 站长资讯 > 正文页面

人工智能玩英雄联盟有多厉害 70小时比肩职业玩家

花火网讯 人工智能除了下棋,现在又进入了游戏的领域,那么,他们玩的怎么样呢?首先需要指明的是,腾讯的这篇新论文关注的是 1v1 游戏AI,并不是 5v5 游戏AI。研究人员在论文中解释称,后者更注重所有智能体的团队合作策略,而不是单个智能体的动作决策。DbR网站目录_网站网址收录与提交入口

考虑到这一点,1v1游戏更适合用来研究游戏中的复杂动作决策问题,也能够更加全面系统的研究游戏 AI 智能体的构建。AI的整体架构一共分为4个模块:强化学习学习器(RL Learner)、人工智能服务器(AI Server)、分发模块(Dispatch Module)和记忆池(Memory Pool)。DbR网站目录_网站网址收录与提交入口

DbR网站目录_网站网址收录与提交入口

这是一种高可扩展低耦合的系统架构,可以用来构建数据并行化。主要考虑的是复杂智能体的动作决策问题可能引入高方差的随机梯度,所以有必要采用较大的批大小以加快训练速度。其中,AI服务器实现的是 AI 模型与环境的交互方式。分发模块是用于样本收集、压缩和传输的工作站。记忆池是数据存储模块,能为 RL 学习器提供训练实例。DbR网站目录_网站网址收录与提交入口

这些模块是分离的,可灵活配置,从而让研究者可将重心放在算法设计和环境逻辑上。这样的系统设计也可用于其它的多智能体竞争问题。在强化学习学习器中,他们还实现了一个 actor-critic 神经网络,用于建模1v1 游戏中的动作依赖关系。DbR网站目录_网站网址收录与提交入口

为了应对游戏中的多个场景决策,研究人员们还提出了一系列算法策略,来实现更高效率的训练:DbR网站目录_网站网址收录与提交入口

DbR网站目录_网站网址收录与提交入口

为了帮助AI在战斗中选择目标,引入目标注意力机制;DbR网站目录_网站网址收录与提交入口

为了学习英雄的技能释放组合,以便AI在序列决策中,快速输出大量伤害,使用了LSTM;DbR网站目录_网站网址收录与提交入口

用于构建多标签近端策略优化(PPO)目标,采用动作依赖关系的解耦;DbR网站目录_网站网址收录与提交入口

为了引导强化学习过程中的探索,开发了基于游戏知识的剪枝方法;DbR网站目录_网站网址收录与提交入口

为了确保使用大和有偏差的数据批进行训练时的收敛性,改进 PPO 算法提出dual-clip PPO,其示意图如下所示:DbR网站目录_网站网址收录与提交入口

研究人员在论文中指出,基于这样的方法训练一个英雄,使用48个P40 GPU卡和18000个CPU 内核,训练一天相当于人类打500年,训练30个小时就能达到王者段位水平,70个小时比肩职业玩家,其表现要显著优于多种baseline方法。DbR网站目录_网站网址收录与提交入口

DbR网站目录_网站网址收录与提交入口

而且如前所述,在与人类选手交战的测试中,获得了非常亮眼的成绩。DbR网站目录_网站网址收录与提交入口

以上就是小编整理的关于AI的资讯,将来会不会有人工智能与人类的比赛呢?DbR网站目录_网站网址收录与提交入口

  

此文由 网站目录_网站网址收录与提交入口 编辑,未经允许不得转载!:

相关文章