使用分层策略从干预中学习以实现安全学习

AAAIDec, 2019

使用分层策略从干预中学习以实现安全学习

Learning from Interventions using Hierarchical Policies for Safe Learning

Jing Bi, Vikas Dhiman, Tianyou Xiao, Chenliang Xu

TL;DR通过将专家的干预向前插值并将策略分为两个层次，一个生成未来的子目标，另一个生成到达这些期望子目标的动作，我们在学习过程中引入了目标预测的思想，从而增强算法学习长期行为，同时还能够抵御专家反应时间的影响，提高了机器人上的学习效果。

Abstract

learning from demonstrations (LfD) via Behavior Cloning (BC) works well on multiple complex tasks. However, a limitation of the typical LfD approach is that it requires expert demonstrations for all scenarios, including those in which the algorithm is already well-trained. The recently

learning from demonstrations learning from interventions hierarchical policy framework sub-goal prediction robotics

发现论文，激发创造

时间逻辑模仿：从演示中学习满足规划的动作策略

本文提出使用状态与运动的离散抽象方法，通过连续策略学习，基于线性时间逻辑公式以确保当前任务在无论是任务层面还是运动层面的干扰下都能顺利完成。

Jun, 2022

使用远程遥操作的人在循环中模仿学习

本文介绍使用干预性策略学习的方法来解决机器人操作任务中必须经过精确定序的地方的问题，提出一种 6 自由度机器人操作任务的数据采集系统，并开发了一个简单而有效的算法来收集新数据以遍历通过这些难点，使用干预策略学习的代理在机器人的线路穿线任务和制造咖啡任务中的表现优于其他多种基线算法。

Dec, 2020

通过自监督奖励回归学习低效演示

本文提出了一种新的方法通过子优示范来合成优化参数化的数据来训练理想的奖励函数，从而克服了旧方法在使用子优示范时的一些限制，实现了更好的性能。

Oct, 2020

基于观察的模仿学习与自动折扣调度

通过自动折扣调度的机制适应性地改变强化学习的折扣系数，我们提出了一种新颖的观察学习框架，使得代理能够在掌握较早行为之后再逐步转向后续行为，并通过在九个 Meta-World 任务上的实验证明该方法在所有任务中明显优于现有方法。

Oct, 2023

基于策略的样本高效观测模仿学习

本文提出了 SEILO，这是一种新颖的 ILO 的样本有效的 on-policy 算法，结合了标准的对抗性模仿学习和逆动力学建模，通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈，我们实证表明，相比于其他现有的 on-policy ILO 和 ILD 方法，我们所提出的算法需要更少的与环境的交互才能实现专家绩效。

Jun, 2023

基于环境限制的示教学习增强

文章介绍了一种学习自演示 (LfD) 方法，用于应对带有关节机制的接触丰富的操作任务。从单个人类演示中提取的策略可以推广到相同类型的不同机制，并且对环境变化具有鲁棒性，其关键是通过与环境有目的地交互来自主增强初始演示以收集附加信息。针对多 DOF 的复杂机制的实际实验表明，我们的方法可以可靠地完成任务。

Oct, 2022

SAFE-GIL：安全引导的模仿学习

SAFE-GIL 通过对专家进行对抗性干扰来引导数据采集，从而解决行为克隆方法的 “错误混合问题”，在安全关键状态下更接近专家行为，并在低数据情况下提高任务成功率和安全性。

Apr, 2024

基于观测的离策略模仿学习

本文提出了一个基于观察学习的学习方法，包括分布匹配、离线策略学习和倒置动作模型，能够在性能和样本效率上与最先进的方法相媲美。

Feb, 2021

来自不同人类监管者的隐式交互式车队学习

本文提出了解决 Interactive Fleet Learning (分布转移) 和 Implicit Behavior Cloning (多模态) 问题的 Implicit Interactive Fleet Learning 方法，并通过模拟实验和物理实验表明其在人类辅助下具有更高的执行成功率和更高的回报。

Jun, 2023

基于控制壁函数的安全反向强化学习

本文提出了一个名为 CBFIRL 的安全 IRL 框架，利用控制屏障函数（CBF）增强 IRL 策略的安全性，通过梯度下降联合优化 CBF 要求灵感的损失函数和 IRL 方法的目标，在实验中表明我们的框架相较于没有 CBF 的 IRL 方法更加安全，并展示了在 2D 赛车领域的两个难度级别和 3D 无人机领域的安全性提高了 15% 和 20% 和 50%。

Dec, 2022