反向决策建模：学习行为的可解释表示

Oct, 2023

反向决策建模：学习行为的可解释表示

Inverse Decision Modeling: Learning Interpretable Representations of Behavior

Daniel Jarrett, Alihan Hüyük, Mihaela van der Schaar

TL;DR通过开发一个逆向决策建模的框架，我们在这篇论文中提出了一种表达顺序决策行为的参数化表示的方法，该方法不仅泛化了现有的模仿/奖励学习工作，而且还打开了更广泛的行为表征研究问题的研究领域。

Abstract

decision analysis deals with modeling and enhancing decision processes. A principal challenge in improving behavior is in obtaining a transparent description of existing behavior in the first place. In this paper

发现论文，激发创造

偏好引导和逆强化学习

通过偏好评估，我们提出了Bayesian逆强化学习的一个方法，可以从观察到的信息中得出代理的偏好、策略和奖励序列的后验分布，并通过分析和实验结果展示与其他统计逆强化学习方法之间的关系。结果表明，即使观察到的代理策略不是最优的，我们也能够准确确定其偏好，并得出更好的策略。

Apr, 2011

逆强化学习中解决不可识别性问题的研究

考虑逆强化学习的设置，其中学习者扩展了主动选择多个环境的能力，从而观察代理在每个环境中的行为。我们首先展示了，如果学习者可以在一些固定的状态和行动集上尝试任何过渡动态，那么存在一种重建代理奖励函数的算法，其理论上可能性最大，并且仅需要少量(对数级别)的实验。接着，我们将这个设置扩展到更加现实的情况，即学习者可能无法选择任何转移动态，而是受到一些固定环境的限制。我们将实验中得到的信息最大化问题与次模函数最大化联系起来，并展示了贪心算法是近似最优的(对数因子)。最后，我们在一个受行为心理学启发的环境中对我们的算法进行了实证验证。

Jan, 2016

反向风险敏感的强化学习

本研究提出了一种基于人类决策模型的梯度下降型反向强化学习算法，用于解决马尔可夫决策过程中有风险感知的智能体反向强化学习问题，并结合两个案例进行了性能展示。

Mar, 2017

从行为推断动态信念：你认为自己要去哪里？

本文提出一种基于内部信念的模型, 推断人类意图以更准确的模拟人类,并可以应用于共享自治框架和推断人类偏好等应用中。

May, 2018

逆强化学习综述：挑战、方法与进展

本文对逆强化学习领域的现有文献进行了分类调查，介绍了IRL问题和其挑战，讨论了目前的解决方法，并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法，同时总结了该领域的研究进展和当前未解决的问题。

Jun, 2018

使用System 1和System 2的强化学习和逆向强化学习

探讨个体行为目标的两种模型之间的区别，一种是理性演员模型，另一种是双系统模型，并在此基础上提出了一种新的基于IRL算法的方法来正确地推断双系统决策者的目标。

Nov, 2018

逆强化学习建模和解释现实世界中的人类风险决策

使用反强化学习(IRL)模型人类决策行为，以理解人类在面临风险时的决策，提出历史状态对人类奖励函数具有影响力的假设，并设计反映这些因素的特征。结果表明，IRL是一种有效的刻画人类决策行为的工具，并帮助解释人类在面临风险决策中的心理过程。

Jun, 2019

序贯决策的假设解释学习

通过对专家行为的建模和学习，该论文提出了一种可解释的决策制定方法，使用“假设”结果的偏好来模拟专家的奖励函数，该方法将反事实推理集成到批量反向强化学习中，能够自然地适应历史记录依赖的环境，同时也满足现实世界决策制定的约束条件。

Jul, 2020

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的IRL结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用RLP和RLE算法，我们分别设计了离线和在线设置的IRL算法，并建立了样本复杂度的下界，表明RLP和RLE算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标MDP上的转移能力。

Nov, 2023

从示范中学习马尔可夫决策过程中的效用

本研究解决了逆强化学习模型中忽视观察代理风险态度的问题，提出了一种新颖的马尔可夫决策过程行为模型，通过效用函数显式表示代理的风险态度。研究发现，该方法及其两种高效算法能够在有限数据条件下有效推断出代理的风险态度，具有实际应用潜力。

Sep, 2024