Oct, 2023

在外科机器人环境中利用最优传输优化离线强化学习

TL;DR介绍了一种新颖的算法 Optimal Transport Reward(OTR)标记,用于给离线轨迹分配奖励,并且使用少量高质量的专家示范来帮助计算奖励信号。通过在手术机器人学习领域展示 OTR 的有效性,强调其多样性和促进强化学习在各个领域上部署的潜力。