本文旨在探讨如何使用逆优化控制(IOC)从演示学习行为,具体应用于对高维机器人系统的扭矩控制。作者提出了一种算法,能够学习任意的非线性成本函数 (如神经网络);同时提出了一种针对 MaxEnt IOC 的高效的基于采样的近似方法。通过一系列模拟任务和真实的机器人操作问题的评估,该方法能够实现显著的任务复杂度和样本效率的提升。
Mar, 2016
该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程,并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况,并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性,引入了自然线性标准化约束。这导致了一个无限维的线性可行性问题,并对其性质进行了深入分析。其次,采用线性函数逼近器和随机化方法,即场景方法和相关的概率可行性保证,为逆问题提供了 ε- 最优解。对于所需的近似精度,进一步讨论了样本复杂度。最后,针对只有有限一组专家示范和生成模型可供使用的更加现实的情况,给出了使用样本时产生的误差界限。
May, 2024
通过学习专家示范来灵活地编程自主系统以实现复杂行为,或者预测代理行为是一个强大的工具,特别是在协同控制环境中。我们提出了一种新颖的稳定性认证逆优化奖励学习法,通过将代价函数推断问题重新表述为从示范数据中学习控制李亚普诺夫函数。我们利用闭合形式表达式和相关控制策略,能够通过观察诱导动力学的吸引子景观有效地搜索李亚普诺夫函数的空间。通过使用最小二乘法构造逆优化李亚普诺夫函数,我们使用凸优化方法来解决问题。我们通过理论分析控制李亚普诺夫函数提供的最优性质,并利用模拟和真实数据来评估我们的方法。
本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。
Jul, 2020
该文介绍了一种在多智能体领域应用的、基于逆优化控制、遗憾和最大熵原理的方法,用于预测与推广多智能体的行为,并恢复其奖励函数。
Mar, 2011
本文提出了基于最大熵原理的逆强化学习算法,用于推断约束非凸最优化问题的奖励函数和约束条件,并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。
May, 2023
研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数,从而有效地解决逆强化学习中从少量演示推断奖励的问题,并在多个连续控制任务中展示了实验结果。
Sep, 2019
本文提出了一种新方法 —— 基于事件的变分反控制方法 (VICE),用于解决控制和强化学习中经常遇到的奖励函数设计困难问题,特别是在只有一些目标状态示例的情况下。我们的方法基于控制和强化学习的另一种视角,即代理目标是最大化未来某个时间点发生一个或多个事件的概率,而不是最大化累积奖励。我们通过高维观测(如图像),演示了我们的方法在连续控制任务上的有效性,其中奖励很难甚至无法指定。
May, 2018
本文提出了一种基于梯度的逆强化学习方法,同时估计系统动态,以后解决由生成策略引起的演示偏差,有效提高了样本利用率并准确估计奖励和转移模型,该方法在合成 MDP 和转移学习任务上都得到了改进。
Apr, 2016
逆强化学习(IRL)的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念,捕捉了离线设置的机会和限制,并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架,我们提出了两种计算和统计高效的算法,IRLO 和 PIRLO,用于解决这个问题。
Feb, 2024