从次优演示中学习奖励的应用于外科电凝

Apr, 2024

从次优演示中学习奖励的应用于外科电凝

Reward Learning from Suboptimal Demonstrations with Applications in Surgical Electrocautery

Zohre Karimi, Shing-Hei Ho, Bao Thach, Alan Kuntz, Daniel S. Brown

TL;DR通过学习演示（LfD）技术实现自动化机器人手术非常具有挑战性，本文介绍了一种从有限数量的次优演示中学习强健奖励函数的方法，并通过强化学习（RL）优化学习到的奖励函数来学习策略。通过在一个物理手术电刀任务上应用我们的方法，我们证明了即使提供的演示是次优的、观察是高维点云时，我们的方法仍然可以表现出色。

Abstract

automating robotic surgery via learning from demonstration (LfD) techniques is extremely challenging. This is because surgical tasks often involve →

automating robotic surgery learning from demonstration sequential decision-making reward function reinforcement learning

发现论文，激发创造

通过自监督奖励回归学习低效演示

本文提出了一种新的方法通过子优示范来合成优化参数化的数据来训练理想的奖励函数，从而克服了旧方法在使用子优示范时的一些限制，实现了更好的性能。

Oct, 2020

面向从次优演示中高样本效率的学徒学习

使用 Systematic Self-Supervised Reward Regression（S3RR）框架，通过系统性的替代轨迹退化，可以实现从非优示范中学习的能力，比现有的学习技术更为高效。

Oct, 2021

基于演示引导的强化学习及高效探索技术用于手术机器人任务自动化

本文介绍了一种基于强化学习的手术自动化算法，使用专家演示数据来提高任务探索效率并克服探索挑战。实验显示该算法在 $10$ 个手术操作任务中取得了显著的提高，并在实际机器人上展示了有效性。

Feb, 2023

稀疏奖励下的不匹配任务演示增强学习

该论文提出了一种名为保守奖励塑造的学习方法，用于解决强化学习中的稀疏奖励问题，并在机器人操纵任务中实现了学习从演示中获取的技能以应用于其他相似但不同任务的能力。

Dec, 2022

如何通过示范高效地教导机器人？

通过使用信息熵作为准则，建议教师给出更具信息量的示范样例，从而提高机器人学习效率。使用增强现实引导系统对初学者进行训练，从熵最高的区域产生额外的示范，并在同一任务（保留）和新任务（转移）上测试性能，结果发现机器人的学习效率大幅提高，与启发式规则相比提高了 210%。

Oct, 2023

基于软件导师的不完美演示强化学习

本文研究了强化学习的探索效率问题。提出了一种基于专家演示的强化学习方法，通过将专家指导视为对智能体政策探索的软约束，最终转化为一个约束优化问题，并采用局部线性搜索来高效解决。在广泛的基准测试中，我们的方法比其他方法获得了更好的结果。

Nov, 2019

通过有限的演示学习复杂的操作技能的确定性策略

提出了一种名为 TD3fG 算法的新算法，旨在通过学习经验和专家的有机转换，帮助代理从低质量和不充分的演示中提取先前的知识，从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。

Mar, 2023

基于环境限制的示教学习增强

文章介绍了一种学习自演示 (LfD) 方法，用于应对带有关节机制的接触丰富的操作任务。从单个人类演示中提取的策略可以推广到相同类型的不同机制，并且对环境变化具有鲁棒性，其关键是通过与环境有目的地交互来自主增强初始演示以收集附加信息。针对多 DOF 的复杂机制的实际实验表明，我们的方法可以可靠地完成任务。

Oct, 2022

基于深度强化学习的分层任务分解：拾取和放置子任务

提出一种多子任务增强学习的方法，将复杂的拾取和放置任务分解为低级子任务，并通过 DRL 方法学习，然后高级协调员将训练好的子任务组合来完成拾取和放置任务，此方法在样本效率方面表现优于以 LfD 为基础的基准方法，并在实际机器人系统中展示了鲁棒的抓握能力。

Feb, 2021

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了 DDPG 和 HER 算法，提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和 RL 算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017