训练抗议组织阿瓦隆的刺客人工智能
通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入,本文在简单的 Catcher 游戏上取得了高水平表现,显著超越了 CNN-AIRL 基线,但在 Enduro Atari 赛车游戏中表现不佳,这彰显了需要进一步研究的必要性。
Oct, 2018
通过训练一个多分辨率的马尔可夫模型的集合,我们提出了一种互动式的模仿学习的方法来创建高质量的NPC行为,从而大大减少了传统手工制作NPC的时间和工作量。
Jun, 2019
本研究基于AlphaStar的技术,利用多项创新性技术,如新型联赛训练方法、配合规则的策略搜索、稳定的策略改进、轻量级神经网络架构、模仿学习中的重要性采样等,开发出一款名为TStarBot-X的AI代理程序,在计算能力有限制条件下可以与人类玩家进行竞争,研究结果对于如StarCraft这类复杂问题的学术和工业研究可能具有重要意义。
Nov, 2020
通过 inter-algorithm cross-play 评估了协作人工智能算法的表现,提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习,在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。
Jan, 2022
本文介绍了 AlphaZero 和 MuZero 的算法,探究了它们的局限性,并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题,并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。
May, 2022
通过引入针对强化学习通用化的 Avalon 挑战集,旨在帮助深度强化学习系统更好地适应于新任务和不同的环境,该集合基于高度多样化的 3D 环境,要求机器人体现出导航、狩猎和采集等能力,在每个地图中生存下来,该挑战集不仅限于改变环境仍使用相同的奖励函数、世界动力学和动作空间, 每个任务都要求机器人在复杂程度上有所提升,Avalon 挑战集包括高效的仿真器和基准库,可用于基本检测和评分,现有的标准强化学习基线在大多数任务上都有进展,但仍远非人类表现,说明 Avalon 挑战集足够具有挑战性,可进一步推动深度强化学习通用化研究的进展。
Oct, 2022
本文提出了一种利用强化学习算法设计视频游戏测试的方法--CARI代理,相比于传统的基于奖励函数规划的算法,CARI能更好地模拟多样的游戏风格,并能够通过单次训练达到传统方法的多倍效果,该新型代理可以用于游戏行为及平衡性调整等方面的研究。
Nov, 2022
研究论文中探索了大型语言模型在社交推理游戏《反抗之巅》中的潜力,并介绍了AvalonBench测试环境,用于评估多代理模型的决策和语言处理能力。实验结果显示了模型在该游戏环境中存在的性能差距,进而提出了开发更先进的自我学习模型和代理框架来模拟这类复杂游戏环境的设想。
Oct, 2023
本研究解决了AlphaZero框架在固定棋盘尺寸上的局限,提出了基于视觉变换器的灵活游戏智能体AlphaViT、AlphaViD和AlphaVDA。通过实验,这些智能体在多种游戏环境中表现优越,尤其是AlphaViD在适应不同动作空间和棋盘尺寸方面展现出更强的能力,展示了变换器结构在游戏AI开发中的潜力。
Aug, 2024