12月30日,腾讯宣布旗下人工智能战队夺得首届谷歌足球大赛冠军,冠军队伍来自腾讯AI Lab开发的绝舞版本,以总成绩1785.8分,显著优势超越全球顶尖技术队伍夺得比赛冠军。
今年11月底,腾讯AI Lab与王者荣耀联合研发的战略协同AI绝舞升级至完整版,首次掌握全英雄全部技能。绝舞此次版本整体设计基于绝舞完整版的移植,并针对足球任务做了一些针对性调整,展现了绝舞AI背后深度强化学习方法的通用能力。
竞争 - 排行榜前 10 名,
从
成立于2010年,是全球最大的数据科学社区和数据科学竞赛平台,本次足球AI竞赛由英超曼城俱乐部在该平台上联合举办。
足球战术策略一直是困扰全球顶尖AI研究团队的难题,其复杂性、多样性、难度系数都很高,而稀疏的游戏激励也使其成为比MOBA类游戏更难攻克的目标。今年首次在足球AI领域发布竞赛题目,为深度强化学习多智能体技术竞赛与基准评测提供了新的舞台。深度强化学习多智能体技术竞赛与基准评测提供了新的舞台。
比赛采用基于开源足球比赛开发的强化学习环境,采用参赛队伍需要控制其中一个智能体组成10个内置智能体的队伍的赛制,既富有挑战性又富有趣味性,自启动以来就吸引了来自全球顶尖大学和科研机构的1100多支科研团队参与挑战。
“11个强化学习代理之间的合作与竞争”
(上)仿照流行的足球游戏,比如 AI 操作的 FIFA 游戏,代理控制球队中的一名或所有足球运动员,学习如何在他们之间传球,并试图突破对手的防守进球。游戏规则与普通足球比赛的规则类似,例如目标是将球踢进对手的球门,以及越位、黄牌和红牌规则。
与常见足球电子游戏中统一控制NPC球队不同,本次比赛每位球员由单独的智能代理控制,参赛AI模型根据比赛情况控制其中一位智能代理,与其他10位内置智能代理配合。这就要求每位球员不仅要观察对手的行为,还要关注自己队友的情况,需要非常复杂的团队配合和比赛策略作为支撑。
例如,当对方控球时,代理不仅要根据球场两侧球员的分布情况,预测控球球员的下一步动作,还要与球队其他球员协调配合,合法夺取球权。而且由于球场动态瞬息万变,高速实时的决策能力也是必需的。
此外,用强化学习的方法从零开始训练一个完整的足球 AI 其实相当困难。不同于 MOBA 游戏不断有经济、健康、经验等实时学习信号,足球比赛的激励非常稀疏英超冠军奖励,基本只能依靠进球,而稀疏激励一直是强化学习的一大难题。
绝悟AI如何成为冠军
得益于深度强化学习在游戏领域的快速发展,从雅达利游戏到围棋,再到各种不同的电子游戏,AI代理在不断的迭代进化中愈发强大,足球比赛中的团队策略难题也被不断攻克。
绝悟版本首先利用强化学习和自我对弈从零开始训练模型,并部署异步分布式强化学习框架。虽然这种异步架构在训练阶段牺牲了一定的实时性,但其灵活性显著提升,还支持在训练过程中按需调整计算资源,使其能够适应 11 智能体足球比赛的训练环境。
由于MOBA游戏与足球比赛的任务目标不同,绝悟版本将生成对抗模拟学习(GAIL)与手动设计的奖励相结合,并在特征和奖励设计上进行了扩展和创新。
架构概述
具体来说,该模型由一些密集层(每层 256 维)和一个 LSTM 模块(32 步,256 个隐藏单元)组成。训练过程采用改进版的近端策略优化(PPO)强化学习算法,学习率固定为 1e-4,使用 Adam 优化器进行参数更新。该方案可以实现非常快速的自适应和迭代,内存使用也比较合理。
在算法方面,绝悟总体上采用了 PPO 强化学习算法的改进版,与前不久发布的绝悟完整版的架构一致。简单来说,PPO 算法的思路就是既要保证每一步计算更新时,代价函数尽可能的小,又要保证与上一步策略的偏差比较小。这个策略可以克服强化学习难以调试的劣势,在实现难度、样本复杂度、调试难度之间取得合适的平衡。
在价值估算方面,绝悟全身采用多头价值(MHV)估算方案,即将奖励分解到多个头中,然后使用不同的折扣因子聚合在一起。采用此方案的原因是,有些事件只与近期动作有关,例如拦截、越位和铲球;而其他事件则涉及一系列决策,例如进球。因此,不同事件的奖励会有不同的权重。
在特征设计方面,研究人员在标准的115维向量基础上进行了扩展,包含了更多的特征,比如队友与对手的相对姿态(位置和方向)、主动球员与球的相对姿态、对可能越位的队友的越位标签、红黄牌状态等英超冠军奖励,这些扩展为训练速度带来了30%的效率提升。
通过
除了人工设计的奖励之外,绝悟版本还采用了生成对抗模仿学习(GAIL),即利用生成对抗训练机制,拟合专家行为的状态和动作分布,从而让其向其他团队学习。
例如,某AI团队演示的“反击( )”策略给研究者留下了深刻印象,即接球回撤→传球给门将→门将高位传球至前场。这是一个相对复杂的动作序列,很难通过人工方法定义其奖励;但利用GAIL,绝悟版本可以基于( )成功学习。然后以GAIL训练出的模型作为固定对手进一步进行自我博弈训练,绝悟版本的鲁棒性得到进一步提升。
GAIL的优势(GAIL的奖励设计结合了两种方案)
但这种通过自我对弈强化学习得到的模型,有一个天然的缺点:容易收敛到单一风格。在实际比赛中,单一风格的模型容易因为对某一风格的经验不足而出现表现异常,最终导致成绩不佳。因此,为了提高策略的多样性和鲁棒性,绝悟在多智能体学习任务中也采用了多风格强化学习训练方案(若干个策略池)。
这种多风格强化学习训练方案的主要过程可以简单概括为先专业化,再融合。
1、训练具备一定竞技能力的基础模型,如盘带、传球、射门等;
2. 在基础模型的基础上训练多个风格化模型,每个模型专注于一种打法风格。在风格化模型的训练过程中,会定期添加主模型作为对手,避免过度坚持风格而丢失基本能力。
3.在基础模型的基础上训练一个主模型,主模型除了使用自身的历史模型作为对手之外,还会定期添加所有风格化对手的最新模型作为对手,以保证主模型的策略鲁棒性,并能适应风格完全不同的对手。
内部能力评分体系显示,主模型经过对手池训练后,可以在基础模型上提升200分,比最强风格化打法高出80分。
最终英超冠军奖励,基于绝悟完整形态的架构迁移、定制化的框架改进,加上关键的生成对抗模仿学习(GAIL)方案和(多个策略池)多风格强化学习训练方案,让绝悟在与其他参赛AI团队的较量中取得了优势,最终成就了夺冠之路。
视频:
vs(第二名)近期比赛记录,比分3:2
绝悟版本的胜利意味着绝悟在全面升级之后,其背后的深度强化学习解决方案已经训练出了能够适应复杂足球竞技场景的AI模型,展现了腾讯AI Lab在前沿AI技术的研发能力,同时也验证了腾讯绝悟AI底层架构与方法的普适性。
据了解,绝悟团队的研究方向正从足球比赛中单个智能体的控制走向11个智能体的同时控制和协调作战。当完全独立的足球智能体达到11个时,强化学习的难度会随着智能体数量的增加而呈指数级增长。同时,足球智能体之间的差距并不大,如何自动形成角色分工以及不同角色之间激励的分配一直是多智能体强化学习的难题。在此前的5v5(多智能体) 大赛中,腾讯绝悟团队也夺得了冠军。
镜头 2
从围棋AI绝艺到MOBA游戏AI绝舞再到现在的AI足球队,腾讯AI Lab的深度强化学习智能体正在一步步进化,逐渐迁移到更加复杂多样的问题中,向着通用人工智能的终极目标迈进。可以预见,未来这类方法还将进一步迁移到机器人等更多领域,创造出更大的实用价值。
附:比赛技术介绍: