均场博弈中最大因果熵逆向强化学习

Jan, 2024

均场博弈中最大因果熵逆向强化学习

Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field Games

Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi

TL;DR我们介绍了关于离散时间平均场博弈下最大因果熵逆强化学习问题。我们通过综述确定性和随机马尔科夫决策过程在有限和无限时域情景下的最大熵逆强化学习问题，提出了最大因果熵逆强化学习问题，这是一个非凸优化问题。我们使用线性规划的方式对问题进行了重构，建立了一个梯度下降算法来计算最优解，并通过将平均场博弈问题转化为广义纳什均衡问题来提出一种新算法。该算法可用于计算正向强化学习问题的平均场均衡，并应用于数值示例。我们注意到，该算法也适用于一般的平均场均衡计算。

Abstract

In this paper, we introduce the maximum casual entropy Inverse Reinforcement Learning (IRL) problem for discrete-time mean-field games (MFGs) under an infinite-horizon discounted-reward optimality criterion. The

maximum casual entropy irl mean-field games discrete-time markov decision processes generalized nash equilibrium problem

发现论文，激发创造

最大因果熵逆强化学习入门

本文介绍了反向强化学习领域最受欢迎的 Maximum Causal Entropy (MCE) IRL 算法及其算法实现的压缩推导和关键结果，旨在为新手提供入门资源，也为熟悉这些主题的人提供简洁的参考。

Mar, 2022

通过熵正则化的深度强化学习近似求解均场博弈

本文研究了离散时间有限 MFG 问题，通过使用熵正则化和 Boltzmann 策略使得固定点迭代收敛到近似固定点，同时提供了在高维场景下使用的近似 Nash 均衡算法以及结合虚拟博弈的深度强化学习方法。

Feb, 2021

逆强化学习的最大似然约束推断

本文针对马可夫决策过程上的反向强化学习问题，即通过一个环境模型以及一个奖励函数，推断出状态、行动、和特征限制，以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵 IRL 的方法，并提出了一个迭代算法，以最大似然的方式推断最佳的约束条件，同时通过仿真实验和现实数据验证了其有效性。

Sep, 2019

最大熵深层逆强化学习

本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架，并展示了最大熵范例在 IRL 中的有效训练方法，具有与现有基准相当的性能，超过基于高度变化奖励结构的替代基准。同时，作者将基本架构扩展为包括更大的卷积以消除对预计算空间特征的依赖并运作在原始输入表示上。

Jul, 2015

伴随明确策略评估的逆强化学习

本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法，发现了它们属于一类共同形式目标、策略和目标梯度的优化问题，探究了不同方法的适用场景和算法效率。

Mar, 2021

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程（MDP）样本能够恢复一个 ε- 最优奖励。此外，我们证明在 O (1/ε^4) 个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。

Mar, 2024

多任务最大熵逆强化学习

本文提出了在最大因果熵 IRL 框架中的多任务 IRL 的公式化，通过单次模仿学习可以解决单任务 IRL 算法需要数百个演示才能解决的网格环境中的问题，并在常见模拟机器人基准的多任务变体上评估这些 IRL 算法，发现了其严重的限制，并提出了进一步的工作建议。

May, 2018

具有约束恢复的逆强化学习

本文提出了基于最大熵原理的逆强化学习算法，用于推断约束非凸最优化问题的奖励函数和约束条件，并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。

May, 2023

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

合作竞争代理的独立强化学习：一种均值场视角

本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法，并通过均值场设定下的广义和型场博弈，证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题，并利用时间独立对角优势下的后向递归离散时间哈密顿 - 雅可比 - 艾萨克斯方程，进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。

Mar, 2024