反向决策建模:学习行为的可解释表示
通过偏好评估,我们提出了Bayesian逆强化学习的一个方法,可以从观察到的信息中得出代理的偏好、策略和奖励序列的后验分布,并通过分析和实验结果展示与其他统计逆强化学习方法之间的关系。结果表明,即使观察到的代理策略不是最优的,我们也能够准确确定其偏好,并得出更好的策略。
Apr, 2011
考虑逆强化学习的设置,其中学习者扩展了主动选择多个环境的能力,从而观察代理在每个环境中的行为。我们首先展示了,如果学习者可以在一些固定的状态和行动集上尝试任何过渡动态,那么存在一种重建代理奖励函数的算法,其理论上可能性最大,并且仅需要少量(对数级别)的实验。接着,我们将这个设置扩展到更加现实的情况,即学习者可能无法选择任何转移动态,而是受到一些固定环境的限制。我们将实验中得到的信息最大化问题与次模函数最大化联系起来,并展示了贪心算法是近似最优的(对数因子)。最后,我们在一个受行为心理学启发的环境中对我们的算法进行了实证验证。
Jan, 2016
本文对逆强化学习领域的现有文献进行了分类调查,介绍了IRL问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
探讨个体行为目标的两种模型之间的区别,一种是理性演员模型,另一种是双系统模型,并在此基础上提出了一种新的基于IRL算法的方法来正确地推断双系统决策者的目标。
Nov, 2018
使用反强化学习(IRL)模型人类决策行为,以理解人类在面临风险时的决策,提出历史状态对人类奖励函数具有影响力的假设,并设计反映这些因素的特征。结果表明,IRL是一种有效的刻画人类决策行为的工具,并帮助解释人类在面临风险决策中的心理过程。
Jun, 2019
通过对专家行为的建模和学习,该论文提出了一种可解释的决策制定方法,使用“假设”结果的偏好来模拟专家的奖励函数,该方法将反事实推理集成到批量反向强化学习中,能够自然地适应历史记录依赖的环境,同时也满足现实世界决策制定的约束条件。
Jul, 2020
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的IRL结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用RLP和RLE算法,我们分别设计了离线和在线设置的IRL算法,并建立了样本复杂度的下界,表明RLP和RLE算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标MDP上的转移能力。
Nov, 2023
本研究解决了逆强化学习模型中忽视观察代理风险态度的问题,提出了一种新颖的马尔可夫决策过程行为模型,通过效用函数显式表示代理的风险态度。研究发现,该方法及其两种高效算法能够在有限数据条件下有效推断出代理的风险态度,具有实际应用潜力。
Sep, 2024