训练抗议组织阿瓦隆的刺客人工智能

Sep, 2022

训练抗议组织阿瓦隆的刺客人工智能

Training an Assassin AI for The Resistance: Avalon

Robert Chuchro

TL;DR本研究将利用机器学习方法对 Resistance: Avalon 这个社交推理游戏中的暗杀阶段进行分类，最终目标是打造一款能够模拟所有角色并适应所有游戏阶段的智能 Avalon 玩家。

Abstract

The resistance: avalon is a partially observable social deduction game. This area of ai game playing is fairly undeveloped. Implementing a

发现论文，激发创造

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

视频游戏中非玩家角色的交互式训练

通过训练一个多分辨率的马尔可夫模型的集合，我们提出了一种互动式的模仿学习的方法来创建高质量的NPC行为，从而大大减少了传统手工制作NPC的时间和工作量。

Jun, 2019

TStarBot-X：StarCraft II完整游戏中高效联赛训练的开源综合研究

本研究基于AlphaStar的技术，利用多项创新性技术，如新型联赛训练方法、配合规则的策略搜索、稳定的策略改进、轻量级神经网络架构、模仿学习中的重要性采样等，开发出一款名为TStarBot-X的AI代理程序，在计算能力有限制条件下可以与人类玩家进行竞争，研究结果对于如StarCraft这类复杂问题的学术和工业研究可能具有重要意义。

Nov, 2020

Any-Play: 零样本协同的内在增强

通过 inter-algorithm cross-play 评估了协作人工智能算法的表现，提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习，在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。

Jan, 2022

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

Avalon: 使用程序生成世界的强化学习泛化基准

通过引入针对强化学习通用化的 Avalon 挑战集，旨在帮助深度强化学习系统更好地适应于新任务和不同的环境，该集合基于高度多样化的 3D 环境，要求机器人体现出导航、狩猎和采集等能力，在每个地图中生存下来，该挑战集不仅限于改变环境仍使用相同的奖励函数、世界动力学和动作空间, 每个任务都要求机器人在复杂程度上有所提升，Avalon 挑战集包括高效的仿真器和基准库，可用于基本检测和评分，现有的标准强化学习基线在大多数任务上都有进展，但仍远非人类表现，说明 Avalon 挑战集足够具有挑战性，可进一步推动深度强化学习通用化研究的进展。

Oct, 2022

基于奖励的可配置智能体：游戏风格连续体生成

本文提出了一种利用强化学习算法设计视频游戏测试的方法--CARI代理，相比于传统的基于奖励函数规划的算法，CARI能更好地模拟多样的游戏风格，并能够通过单次训练达到传统方法的多倍效果，该新型代理可以用于游戏行为及平衡性调整等方面的研究。

Nov, 2022

从文本到战术：评估玩阿瓦隆游戏的LLMs

研究论文中探索了大型语言模型在社交推理游戏《反抗之巅》中的潜力，并介绍了AvalonBench测试环境，用于评估多代理模型的决策和语言处理能力。实验结果显示了模型在该游戏环境中存在的性能差距，进而提出了开发更先进的自我学习模型和代理框架来模拟这类复杂游戏环境的设想。

Oct, 2023

在遗憾匹配中平衡自我博弈训练中角色的人工智能强度

通过引入Regret Matching+方法，训练一种通用模型来控制游戏中的任何角色，以实现人工智能在多角色游戏中的均衡性能。

Jan, 2024

灵活的游戏智能体：使用 AlphaViT 适应多种游戏和棋盘尺寸

本研究解决了AlphaZero框架在固定棋盘尺寸上的局限，提出了基于视觉变换器的灵活游戏智能体AlphaViT、AlphaViD和AlphaVDA。通过实验，这些智能体在多种游戏环境中表现优越，尤其是AlphaViD在适应不同动作空间和棋盘尺寸方面展现出更强的能力，展示了变换器结构在游戏AI开发中的潜力。

Aug, 2024