离线模仿学习的最优输运
介绍了一种新颖的算法 Optimal Transport Reward(OTR)标记,用于给离线轨迹分配奖励,并且使用少量高质量的专家示范来帮助计算奖励信号。通过在手术机器人学习领域展示 OTR 的有效性,强调其多样性和促进强化学习在各个领域上部署的潜力。
Oct, 2023
通过从环境中观察专家,尽管没有明确的奖励或动作标签,但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法,在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示,定义了内在奖励函数,改善了其他线下强化学习算法在稀疏奖励任务中的性能,并超过了 D4RL 基准的最新线下模仿学习算法。
Feb, 2024
提出一种新颖的零样本基于偏好的强化学习算法,利用源任务的标注偏好数据来推断目标任务的标注数据,然后利用 Gromov-Wasserstein 距离来对齐源任务和目标任务的轨迹分布,并使用 Robust Preference Transformer 模型来训练奖励函数和策略模型,其结果表明该方法具有在转移学习环境下学习偏好并能从含噪偏好标签学习奖励函数的能力。
Jun, 2023
该论文以最优传输理论(OT)为基础,通过修改目标函数,提出了一种风险感知的强化学习框架,以确保决策的可靠性,并且在最大化预期回报的同时,尊重通过状态访问分布和期望风险配置之间的 OT 距离所规定的风险约束。通过利用 OT 的数学精度,论文提供了一种能够将风险考虑与传统强化学习目标相平衡的公式化方法,通过一系列定理来证明了风险分布、最优值函数和策略行为之间的关系。该研究通过 OT 的视角为强化学习提供了一个有前景的方向,确保奖励追求与风险意识的平衡融合。
Sep, 2023
该论文利用最优传输理论(OT)提供了一个新的视角,通过利用最优传输中的 Wasserstein 距离,建立了一个几何框架,可以量化奖励的模糊性,并确定奖励函数的中心表示或重心,为几何解释锚定的稳健逆 RL 方法提供了结构化的方法来解决高维奖励模糊问题。
Oct, 2023
本文提出了一种基于正则化最优传输的模仿学习算法,结合了轨迹匹配奖励和行为克隆,大大提高了模仿学习的速度和效率,在 20 个视觉控制任务中的实验表明,比起之前的最先进方法,该算法可以平均快七倍,并且在真实世界的机器人操作中展现了高达 90% 的平均成功率。
Jun, 2022
本研究提出了一种基于最优传输成本不确定性集的安全强化学习框架,通过离线学习实现效率高、理论支持强的无需对数据收集过程进行过多假设的具有鲁棒性、安全性能的表现。在真实世界的强化学习套件中证明了该方法的优越性。
Jan, 2023
利用熵正则化最优传输技术作为深度强化学习网络中的一层,以实现更快速的学习并在端到端训练期间强制执行分配约束和规定,从而对于解决组合优化问题的效率进行优化。
Mar, 2022
本文提出了利用未标注的数据,通过零奖励的方式来共享数据,在理论和实践中验证了该策略的有效性,并展示了如何通过简单的重新加权方法来缓解由于使用不正确的奖励标签而引入的偏置,这在模拟机器人运动、导航和操作等方面得到了证实。
Feb, 2022