面向从次优演示中高样本效率的学徒学习

AAAIOct, 2021

面向从次优演示中高样本效率的学徒学习

Towards Sample-efficient Apprenticeship Learning from Suboptimal Demonstration

Letian Chen, Rohan Paleja, Matthew Gombolay

TL;DR使用 Systematic Self-Supervised Reward Regression（S3RR）框架，通过系统性的替代轨迹退化，可以实现从非优示范中学习的能力，比现有的学习技术更为高效。

Abstract

learning from demonstration (LfD) seeks to democratize robotics by enabling non-roboticist end-users to teach robots to perform novel tasks by providing demonstrations. However, as demonstrators are typically non

learning from demonstration robotics ssrr s3rr reward correlation

发现论文，激发创造

通过自监督奖励回归学习低效演示

本文提出了一种新的方法通过子优示范来合成优化参数化的数据来训练理想的奖励函数，从而克服了旧方法在使用子优示范时的一些限制，实现了更好的性能。

Oct, 2020

从次优演示中学习奖励的应用于外科电凝

通过学习演示（LfD）技术实现自动化机器人手术非常具有挑战性，本文介绍了一种从有限数量的次优演示中学习强健奖励函数的方法，并通过强化学习（RL）优化学习到的奖励函数来学习策略。通过在一个物理手术电刀任务上应用我们的方法，我们证明了即使提供的演示是次优的、观察是高维点云时，我们的方法仍然可以表现出色。

Apr, 2024

如何通过示范高效地教导机器人？

通过使用信息熵作为准则，建议教师给出更具信息量的示范样例，从而提高机器人学习效率。使用增强现实引导系统对初学者进行训练，从熵最高的区域产生额外的示范，并在同一任务（保留）和新任务（转移）上测试性能，结果发现机器人的学习效率大幅提高，与启发式规则相比提高了 210%。

Oct, 2023

稀疏奖励下的不匹配任务演示增强学习

该论文提出了一种名为保守奖励塑造的学习方法，用于解决强化学习中的稀疏奖励问题，并在机器人操纵任务中实现了学习从演示中获取的技能以应用于其他相似但不同任务的能力。

Dec, 2022

基于软件导师的不完美演示强化学习

本文研究了强化学习的探索效率问题。提出了一种基于专家演示的强化学习方法，通过将专家指导视为对智能体政策探索的软约束，最终转化为一个约束优化问题，并采用局部线性搜索来高效解决。在广泛的基准测试中，我们的方法比其他方法获得了更好的结果。

Nov, 2019

通过概率图示教学进行示范学习

通过对 2D 场景图像进行示范轨迹草图，在三维任务空间中生成运动轨迹的概率模型，以此作为一种新型的 LfD（Learning for Demonstration）范式。

Sep, 2023

通过有限的演示学习复杂的操作技能的确定性策略

提出了一种名为 TD3fG 算法的新算法，旨在通过学习经验和专家的有机转换，帮助代理从低质量和不充分的演示中提取先前的知识，从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。

Mar, 2023

异构演示中终身学习的策略探索与混合

本文提出了一种基于 Learning from Demonstration (LfD) 框架的新算法 Dynamic Multi-Strategy Reward Distillation (DMSRD)，通过提取不同人给出的演示中的共同知识，构建混合策略以实现个性化和高效的机器人学习，实验结果表明，该算法表现出了明显的优越性。

Feb, 2022

基于深度强化学习的分层任务分解：拾取和放置子任务

提出一种多子任务增强学习的方法，将复杂的拾取和放置任务分解为低级子任务，并通过 DRL 方法学习，然后高级协调员将训练好的子任务组合来完成拾取和放置任务，此方法在样本效率方面表现优于以 LfD 为基础的基准方法，并在实际机器人系统中展示了鲁棒的抓握能力。

Feb, 2021

从次优演示中进行模仿学习的技能解耦

本文提出了一种可以从小的干净数据集和大的嘈杂数据集中学习到子最优示范的深度递归网络，通过技能探索和调整，以及相互信息正则化促进技能空间中的解缠缩。

Jun, 2023