视频游戏的逆强化学习

NIPSOct, 2018

Inverse reinforcement learning for video games

Aaron Tucker, Adam Gleave, Stuart Russell

TL;DR通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Abstract

deep reinforcement learning achieves superhuman performance in a range of video game environments, but requires that a designer manually specify a reward function. It is often easier to provide demonstrations of a target behavior than to design a reward function describing that behavio

deep reinforcement learning inverse reinforcement learning video games cnn-airl autoencoder

发现论文，激发创造

程序化生成环境下高效演示逆强化学习

通过有限集的初始种子和一些训练稳定的修改，我们提出了一种基于对抗性反向强化学习的技术，名为 DE-AIRL，该技术能够显著减少对专家演示的需求，并仍能够将回报函数外推到完全程序化域，我们在 MiniGrid 和 DeepCrawl 的两个程序化环境中展示了我们的技术的有效性。

Dec, 2020

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

通过对抗逆强化学习学习鲁棒奖励

本文提出了一种新颖的反向强化学习算法，基于对抗奖励学习框架，该算法能够实现自动奖励学习并在大规模高维问题中具有很强的适用性和可扩展性，提高了强化学习的性能和应用范围。

Oct, 2017

通过生成模型的内在奖励驱动的模仿学习

通过引入一种新的奖励学习模块，可通过生成模型生成内在奖励信号。我们的生成功能可以更好地执行前向状态转换和后向动作编码，提高模块在环境中的动力学建模能力，并为模仿代理提供了模仿者的内在意图和更好的探索能力。经验证明，我们的模型在多个 Atari 游戏中的表现优于现有的 IRL 方法，即使只有一次演示，性能也是演示的 5 倍。

Jun, 2020

基于深高斯过程的逆强化学习

该论文提出了一种基于深度高斯过程模型的新逆向强化学习方法，可在少量演示情况下学习复杂的奖励结构，并通过最大熵学习框架与状态特征空间相链接。通过自行开发的非标准变分近似框架，可进行特征空间的近似贝叶斯处理，并防止过度拟合。在该模型中同时进行表示和逆向强化学习性能优于现有技术。已在标准基准测试中进行实验验证（“物体世界”、“高速公路驾驶”）以及新的基准测试（“二进制世界”）。

Dec, 2015

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

逆向强化学习的自动特征选择

逆向强化学习是一种从专家示范中学习奖励函数的模仿学习方法，通过使用线性组合特征表示奖励，借助多项式基函数形成特征候选集来解决连续状态空间中特征选择的问题，并利用轨迹概率与特征期望之间的关联对特征进行选择，实验表明该方法能够恢复捕获专家策略的奖励函数，适用于越来越复杂的非线性控制任务。

Mar, 2024

使用逆强化学习和深度 Q 网络进行驾驶学习

提出一种使用深度 Q 网络进行逆向强化学习 (IRL) 来提取大状态空间问题中奖励的方法，并在基于模拟的自主驾驶场景中评估其性能。结果表明，经过几次学习后，模拟代理能够生成无碰撞的运动，并表现出人类般的变道行为。

Dec, 2016

逆强化学习的主动探索

本文提出使用主动探索策略的逆强化学习算法（AceIRL），该算法通过构造置信区间捕捉潜在的奖励函数，寻找信息最充分的环境区域的探索策略，从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法，并与具备环境生成模型情况下的样本复杂度相匹配，在模拟实验中证明 AceIRL 优于其他探索策略。

Jul, 2022

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法，我们分别设计了离线和在线设置的 IRL 算法，并建立了样本复杂度的下界，表明 RLP 和 RLE 算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。

Nov, 2023