计算理性化:逆平衡问题
本研究着重于解决不完美信息下的数据驱动逆向优化问题,将其形式化为分布鲁棒规划,最小化预测决策与真实响应之间的最坏情况风险,并证明了该方法比现有方法更为有效。
Dec, 2015
本文介绍了一种适用于大规模连续任务的概率反向最优控制算法,通过使用奖励函数的局部估计值,该方法可以学习来自非全局最优演示的例子,并消除全局最优的假设。
Jun, 2012
我们考虑了在未知的随机马尔可夫环境或游戏中,从代理人的示范学习的问题。我们旨在估计代理人的偏好,以构建同一任务的改进策略。为了做到这一点,我们将已知 MDP 中逆强化学习的概率方法扩展到未知动态或对手的情况。我们通过导出演示者策略和效用的两个简化概率模型来实现这一点,为了易于处理,我们使用了最大后验估计而不是完整的贝叶斯推断。在先验分布相同的情况下,这结果是凸优化问题。我们发现所得到的算法与其他了解动态的逆强化学习方法相比具有很高的竞争力。
Aug, 2014
该研究探讨了如何设计自主智能体,使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得,结果显示学习代理的策略对转移函数具有显著影响时,奖励函数可以被高效地学习。
Nov, 2021
探讨个体行为目标的两种模型之间的区别,一种是理性演员模型,另一种是双系统模型,并在此基础上提出了一种新的基于 IRL 算法的方法来正确地推断双系统决策者的目标。
Nov, 2018
本文提出了基于信息理论思想的有限理性理论,并提供了将自由能量函数作为表征有限理性决策的目标函数的概念上的理据。该文讨论了单步决策以及如何使用等价变换将其扩展到序贯决策,扩展后得到的类别决策问题非常广泛,包括古典决策规则等极限情况以及可信和风险敏感规划。
Dec, 2015
给定一个包含多个次优专家行为的问题,我们将逆向强化学习(IRL)方法扩展到了这种情况,研究了与给定专家集兼容的奖励函数的理论性质,并分析了使用生成模型估计可行奖励集的统计复杂性,得到了一个具有极小极大最优性的均匀采样算法。
Jan, 2024
本文提出一种不需要假定逻辑全知的有限理性归纳代理理论,要求有限理性归纳代理无限次地测试每个高效可计算的假设,然后遵循那些能够实现高奖励的假设。同时,探讨了不同有限理性归纳代理之间的策略交互并证明了有限理性归纳代理可以趋于何种策略的民间定理。
Jul, 2023
本文旨在探讨如何使用逆优化控制(IOC)从演示学习行为,具体应用于对高维机器人系统的扭矩控制。作者提出了一种算法,能够学习任意的非线性成本函数 (如神经网络);同时提出了一种针对 MaxEnt IOC 的高效的基于采样的近似方法。通过一系列模拟任务和真实的机器人操作问题的评估,该方法能够实现显著的任务复杂度和样本效率的提升。
Mar, 2016