基于奖励的可配置智能体：游戏风格连续体生成

Nov, 2022

基于奖励的可配置智能体：游戏风格连续体生成

Configurable Agent With Reward As Input: A Play-Style Continuum Generation

Pierre Le Pelletier de Woillemont, Rémi Labory, Vincent Corruble

TL;DR本文提出了一种利用强化学习算法设计视频游戏测试的方法 --CARI 代理，相比于传统的基于奖励函数规划的算法，CARI 能更好地模拟多样的游戏风格，并能够通过单次训练达到传统方法的多倍效果，该新型代理可以用于游戏行为及平衡性调整等方面的研究。

Abstract

Modern video games are becoming richer and more complex in terms of game mechanics. This complexity allows for the emergence of a wide variety of ways to play the game across the players. From the point of view of the game designer, this means that one needs to anticipate a lot of diff

video games machine learning reinforcement learning testing agent

发现论文，激发创造

通过基于强化学习的人类化游戏风格生成实现自动玩测试

该论文介绍了 CARMI：一种配置可调的智能体，使用相对度量输入以模拟玩家的游戏风格，并能够在先前未见过的游戏关卡上操作。这种方法不需要完整的游戏数据轨迹，可通过少量人工数据训练，并可用于制作视频游戏的行为和平衡研究。

Nov, 2022

强化学习智能体自动生成目标

提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

May, 2017

演化奖励函数自动化强化学习

使用 AutoRL，一种进化层，通过将奖励调整视为超参数优化并训练一组 RL 代理来寻找最大化任务目标的奖励，使得评估了两个 RL 算法上四个 Mujoco 连续控制任务之后 AutoRL 在改善之前的工作基础之上表现出提升，复杂任务上的提升最大。

May, 2019

视频游戏中深度强化学习综述

本文综述了深度强化学习 (DRL) 的进展，包括基于价值、基于策略和基于模型的算法，并对其在游戏 AI 领域内的应用和挑战进行了讨论和总结。

Dec, 2019

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

基于逻辑的奖励塑造多智能体强化学习

本研究探讨了基于逻辑的多智能体强化学习中的奖励设计问题，并提出了一种可扩展的半集中式逻辑奖励设计方法，以应对任务中多智能体数量增加的问题。

Jun, 2022

关于团队运动比赛中的多智能体学习

本文提出了一种分层训练智能体的方法，以期在团队运动游戏中实现类似于人类的风格和高水平的表现，初步结果显示所提出的方法具有解决多智能体学习问题的潜力。

Jun, 2019

使用 NEAT 和强化学习无限制地玩 2D 游戏

本研究采用 “Flappy Bird” 游戏环境，对比 NeuroEvolution of Augmenting Topologies (NEAT) 算法和强化学习算法在人工智能代理环境下的表现，探讨具有不同初始人工智能代理种群的算法性能。

Jul, 2022

使用策略和奖励塑形的无人机控制强化学习

本研究采用奖赏塑形和策略塑形技术同时训练 RL 智能体，以控制无人机；结果表明，与仅使用基于策略的方法训练智能体相比，使用两种技术同时训练的智能体获得了较低的回报，但训练期间达到了更低的执行时间和更少的离散度。

Dec, 2022

多模态对抗仿真学习中的游戏角色生成

本论文提出了一种用于玩家测试的多重个人策略生成的新型模仿学习方法 —— 多模态生成对抗模仿学习（MultiGAIL），其使用辅助输入参数来学习不同的个人策略，基于生成对抗模仿学习的多重判别器作为奖励模型，通过比较代理和不同专家策略来推断出环境奖励，并根据辅助输入对每个判别器的奖励进行加权。实验分析证明了我们的技术在连续和离散行动空间的两个环境中的有效性。

Aug, 2023