Apr, 2024

从次优演示中学习奖励的应用于外科电凝

TL;DR通过学习演示(LfD)技术实现自动化机器人手术非常具有挑战性,本文介绍了一种从有限数量的次优演示中学习强健奖励函数的方法,并通过强化学习(RL)优化学习到的奖励函数来学习策略。通过在一个物理手术电刀任务上应用我们的方法,我们证明了即使提供的演示是次优的、观察是高维点云时,我们的方法仍然可以表现出色。