在成本函数不确定情况下从局部最优演示中学习约束

Jan, 2020

在成本函数不确定情况下从局部最优演示中学习约束

Learning Constraints from Locally-Optimal Demonstrations under Cost Function Uncertainty

Glen Chou, Necmiye Ozay, Dmitry Berenson

TL;DR本文提出一种从局部最优演示中学习参数约束的算法，并使用混合整数线性规划 (MILP) 中的 Karush-Kuhn-Tucker (KKT) 最优条件来学习与演示本地最优性一致的约束条件，提供了恢复安全/不安全集合的保守性理论保证，分析了使用局部最优演示时约束可学习性的限制，评估了该方法在高维约束和系统上的性能。例子表明，它优于现有的约束学习方法，并可以有效地用于在环境中计划新的符合约束条件的轨迹。

Abstract

We present an algorithm for learning parametric constraints from locally-optimal demonstrations, where the cost function being optimized is uncertain to the learner. Our method uses the →

发现论文，激发创造

基于贝叶斯优化的目标驱动动态学习

通过基于贝叶斯优化的主动学习框架以及最优控制方案，采用特定任务方法，使用局部线性动态模型来设计给定任务的控制器，并通过对物理系统的实验来迭代地更新模型，最终在四旋翼实验台上进行仿真和实验，验证了该方法的有效性。

Mar, 2017

从演示中学习限制

本论文提出了一种通过hit-and-run抽样方法，利用任务演示、成本函数以及系统动力学和控制约束知识，学习跨任务共享的未知约束的方法。该方法可以学习系统动力学的不确定性，学习一定量的约束，并且适用于线性和非线性系统的控制。

Dec, 2018

通过自监督奖励回归学习低效演示

本文提出了一种新的方法通过子优示范来合成优化参数化的数据来训练理想的奖励函数，从而克服了旧方法在使用子优示范时的一些限制，实现了更好的性能。

Oct, 2020

反向受限强化学习

研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法，建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架，并且该方法与之前的工作相比，在离散设置、特定类型约束和环境转移动力学等方面表现更好。

Nov, 2020

熟练操纵的约束强化学习

本文研究了在24 DOF机器人手器学习使用约束策略优化来执行对象重定位任务，并发现在学习期间添加约束能确保机器人更快达到目标点，从而使其具有更加稳健和安全的行为能力。

Jan, 2023

从未知奖励的演示中学习安全约束

该研究提出了凸约束学习用于强化学习的方法，该方法通过安全演示从具有可能不同奖励函数的共享约束中推断出受约束马尔可夫决策过程（CMDP）中的约束。与以往的方法不同，该方法可以从具有不同未知奖励的演示中学习约束并构建一个凸安全集，从而保证安全性，即使这些安全演示可能是次优的。该方法在表格环境和多个约束条件的连续驾驶模拟中得到了评估，并证明了可以学到安全行驶行为并且可以转移到不同的任务和环境中。

May, 2023

从多任务演示中学习共享安全约束

从专家演示的安全任务完成中学习约束条件的方法扩展了逆强化学习（IRL）技术到约束空间，通过利用多任务环境中自然发生的各种演示来学习更紧密的约束条件。

Sep, 2023

约束方程学习网络用于保持精度的机器人技能外推

Constrained Equation Learner Networks提出了一种新的受限回归学习框架，用于编程演示中的轨迹适应问题，通过学习一组分析表达式作为基函数，利用它们来最小化与训练数据的偏差，同时满足所需的适应性约束来解决轨迹适应问题，通过在仿真实验和实际机器人任务中的比较，实验证明该方法相对于现有方法能够提高机器人技能的泛化性和适应性。

Nov, 2023

从专家演示中推断非线性连续约束函数的正-未标记约束学习（PUCL）

该研究解决了从专家演示中推断未知约束的问题，提出了一种新颖的正-未标记约束学习（PUCL）算法。该方法通过将演示数据视为正数据并生成可能的未标记数据，灵活学习复杂形状的约束边界，成功推断连续非线性约束，并在机器人任务中表现优越，提升了约束准确性和策略安全性。

Aug, 2024

弥补学习规划、运动原语与安全强化学习之间的差距

本研究解决了在复杂环境中进行基于运动的规划时所面临的动力学约束问题。通过将学习规划方法与强化学习相结合，提出了一种新颖的运动原语黑箱学习和优化的整合方案。我们的实验表明，该方法在复杂控制场景下优于现有的安全强化学习技术，显示出在复杂动力学约束下提升机器人性能和安全性的潜力。

Aug, 2024