从专家演示中推断非线性连续约束函数的正-未标记约束学习（PUCL）

Aug, 2024

从专家演示中推断非线性连续约束函数的正-未标记约束学习（PUCL）

Positive-Unlabeled Constraint Learning (PUCL) for Inferring Nonlinear Continuous Constraints Functions from Expert Demonstrations

HTML

PDF

Baiyu Peng, Aude Billard

TL;DR该研究解决了从专家演示中推断未知约束的问题，提出了一种新颖的正-未标记约束学习（PUCL）算法。该方法通过将演示数据视为正数据并生成可能的未标记数据，灵活学习复杂形状的约束边界，成功推断连续非线性约束，并在机器人任务中表现优越，提升了约束准确性和策略安全性。

Abstract

Planning for a wide range of real-world robotic tasks necessitates to know and write all constraints. However, instances exist where these constraints are either unknown or challenging to specify accurately. A possible solution is to infer the unknown constraints from Expert Demonstration

发现论文，激发创造

从演示中学习限制

本论文提出了一种通过hit-and-run抽样方法，利用任务演示、成本函数以及系统动力学和控制约束知识，学习跨任务共享的未知约束的方法。该方法可以学习系统动力学的不确定性，学习一定量的约束，并且适用于线性和非线性系统的控制。

Dec, 2018

正例-未标注奖励学习

本文针对学习奖励模型所面临的挑战，探讨了正例-无标记学习算法（positive-unlabeled learning）在奖励学习问题中的应用，并验证该方法可以同时解决奖励低估和高估问题，从而显著提高 both GAIL and supervised 奖励学习的效果。

Nov, 2019

在成本函数不确定情况下从局部最优演示中学习约束

本文提出一种从局部最优演示中学习参数约束的算法，并使用混合整数线性规划 (MILP) 中的 Karush-Kuhn-Tucker (KKT) 最优条件来学习与演示本地最优性一致的约束条件，提供了恢复安全/不安全集合的保守性理论保证，分析了使用局部最优演示时约束可学习性的限制，评估了该方法在高维约束和系统上的性能。例子表明，它优于现有的约束学习方法，并可以有效地用于在环境中计划新的符合约束条件的轨迹。

Jan, 2020

带安全约束的学习：有约束 MDP 的强化学习样本复杂度

研究未知的CMDP和两种RL算法的关系，在满足安全约束的情况下，探索样本复杂性。结果表明，相对于不受约束的情况，受约束的RL算法的样本复杂性增加的因子是约束数量的对数，该方法可以在实际系统中轻松使用。

Aug, 2020

反向受限强化学习

研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法，建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架，并且该方法与之前的工作相比，在离散设置、特定类型约束和环境转移动力学等方面表现更好。

Nov, 2020

从未知奖励的演示中学习安全约束

该研究提出了凸约束学习用于强化学习的方法，该方法通过安全演示从具有可能不同奖励函数的共享约束中推断出受约束马尔可夫决策过程（CMDP）中的约束。与以往的方法不同，该方法可以从具有不同未知奖励的演示中学习约束并构建一个凸安全集，从而保证安全性，即使这些安全演示可能是次优的。该方法在表格环境和多个约束条件的连续驾驶模拟中得到了评估，并证明了可以学到安全行驶行为并且可以转移到不同的任务和环境中。

May, 2023

从多任务演示中学习共享安全约束

从专家演示的安全任务完成中学习约束条件的方法扩展了逆强化学习（IRL）技术到约束空间，通过利用多任务环境中自然发生的各种演示来学习更紧密的约束条件。

Sep, 2023

约束方程学习网络用于保持精度的机器人技能外推

Constrained Equation Learner Networks提出了一种新的受限回归学习框架，用于编程演示中的轨迹适应问题，通过学习一组分析表达式作为基函数，利用它们来最小化与训练数据的偏差，同时满足所需的适应性约束来解决轨迹适应问题，通过在仿真实验和实际机器人任务中的比较，实验证明该方法相对于现有方法能够提高机器人技能的泛化性和适应性。

Nov, 2023

使用单类决策树从示范中学习安全约束

自主代理与人类价值的对齐是部署这些代理到物理环境中时的一个关键挑战，安全性是其中一个重要关注点。为了解决这一挑战，我们提出了一种新的方法，利用一类决策树来从专家示范中进行学习。这些决策树以逻辑公式的形式表示与给定环境相关的一组约束条件。所学到的约束条件随后用于有约束的强化学习框架，实现安全策略的获取。与其他方法不同，我们的方法提供了约束条件的可解释性表示，这在安全关键环境中是一个至关重要的特性。为了验证我们提出方法的有效性，我们在合成基准领域和真实驾驶环境中进行了实验。

Dec, 2023

约束流形上的安全强化学习：理论与应用

将基于学习的技术，特别是强化学习，整合到机器人技术中来解决非结构化环境中的复杂问题很具有前景。本文展示了我们如何以原则性的方式将复杂的安全约束强加于基于学习的机器人系统中，从理论和实践的角度进行了展示。

Apr, 2024