最大熵深层逆强化学习

Jul, 2015

Maximum Entropy Deep Inverse Reinforcement Learning

Markus Wulfmeier, Peter Ondruska, Ingmar Posner

TL;DR本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架，并展示了最大熵范例在 IRL 中的有效训练方法，具有与现有基准相当的性能，超过基于高度变化奖励结构的替代基准。同时，作者将基本架构扩展为包括更大的卷积以消除对预计算空间特征的依赖并运作在原始输入表示上。

Abstract

This paper presents a general framework for exploiting the representational capacity of neural networks to approximate complex, nonlinear reward functions in the context of solving the inverse reinforcement learning

neural networks inverse reinforcement learning maximum entropy deep architectures convolutional neural networks

发现论文，激发创造

深度自适应多目的逆强化学习

本文提出一种深度逆强化学习框架，使用狄利克雷过程的工具，通过无标签专家示范学习先前未知的多个非线性奖励函数，同时考虑奖励函数的复杂性和数量。通过专家多重意图的条件最大熵原理，我们将其建模为潜在意图分布的混合，并提出两种算法来估计深度奖励网络的参数和专家意图的数量。

Jul, 2021

多任务最大熵逆强化学习

本文提出了在最大因果熵 IRL 框架中的多任务 IRL 的公式化，通过单次模仿学习可以解决单任务 IRL 算法需要数百个演示才能解决的网格环境中的问题，并在常见模拟机器人基准的多任务变体上评估这些 IRL 算法，发现了其严重的限制，并提出了进一步的工作建议。

May, 2018

最大因果熵逆强化学习入门

本文介绍了反向强化学习领域最受欢迎的 Maximum Causal Entropy (MCE) IRL 算法及其算法实现的压缩推导和关键结果，旨在为新手提供入门资源，也为熟悉这些主题的人提供简洁的参考。

Mar, 2022

均场博弈中最大因果熵逆向强化学习

我们介绍了关于离散时间平均场博弈下最大因果熵逆强化学习问题。我们通过综述确定性和随机马尔科夫决策过程在有限和无限时域情景下的最大熵逆强化学习问题，提出了最大因果熵逆强化学习问题，这是一个非凸优化问题。我们使用线性规划的方式对问题进行了重构，建立了一个梯度下降算法来计算最优解，并通过将平均场博弈问题转化为广义纳什均衡问题来提出一种新算法。该算法可用于计算正向强化学习问题的平均场均衡，并应用于数值示例。我们注意到，该算法也适用于一般的平均场均衡计算。

Jan, 2024

逆强化学习的最大似然约束推断

本文针对马可夫决策过程上的反向强化学习问题，即通过一个环境模型以及一个奖励函数，推断出状态、行动、和特征限制，以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵 IRL 的方法，并提出了一个迭代算法，以最大似然的方式推断最佳的约束条件，同时通过仿真实验和现实数据验证了其有效性。

Sep, 2019

伴随明确策略评估的逆强化学习

本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法，发现了它们属于一类共同形式目标、策略和目标梯度的优化问题，探究了不同方法的适用场景和算法效率。

Mar, 2021

基于深高斯过程的逆强化学习

该论文提出了一种基于深度高斯过程模型的新逆向强化学习方法，可在少量演示情况下学习复杂的奖励结构，并通过最大熵学习框架与状态特征空间相链接。通过自行开发的非标准变分近似框架，可进行特征空间的近似贝叶斯处理，并防止过度拟合。在该模型中同时进行表示和逆向强化学习性能优于现有技术。已在标准基准测试中进行实验验证（“物体世界”、“高速公路驾驶”）以及新的基准测试（“二进制世界”）。

Dec, 2015

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程（MDP）样本能够恢复一个 ε- 最优奖励。此外，我们证明在 O (1/ε^4) 个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。

Mar, 2024

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019