在外科机器人环境中利用最优传输优化离线强化学习

Oct, 2023

在外科机器人环境中利用最优传输优化离线强化学习

Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning in Surgical Robotic Environments

Maryam Zare, Parham M. Kebria, Abbas Khosravi

TL;DR介绍了一种新颖的算法 Optimal Transport Reward（OTR）标记，用于给离线轨迹分配奖励，并且使用少量高质量的专家示范来帮助计算奖励信号。通过在手术机器人学习领域展示 OTR 的有效性，强调其多样性和促进强化学习在各个领域上部署的潜力。

Abstract

Most reinforcement learning (RL) methods are traditionally studied in an active learning setting, where agents directly interact with their environments, observe action outcomes, and learn through trial and error. However, allowing partially trained agents to interact with real physica

reinforcement learning offline rl optimal transport reward dataset annotation policy learning

发现论文，激发创造

离线模仿学习的最优输运

本文介绍一种基于 Optimal Transport Reward 标注的离线增强学习算法，通过算法赋予数据集中的未标注轨迹相似性度量作为奖励信号，实现数据驱动的决策制定策略学习，并在 D4RL 数据集上验证了其性能。

Mar, 2023

意图对齐：离线优化传输的模仿学习

通过从环境中观察专家，尽管没有明确的奖励或动作标签，但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法，在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示，定义了内在奖励函数，改善了其他线下强化学习算法在稀疏奖励任务中的性能，并超过了 D4RL 基准的最新线下模仿学习算法。

Feb, 2024

风险感知强化学习基于最优输运理论

该论文以最优传输理论（OT）为基础，通过修改目标函数，提出了一种风险感知的强化学习框架，以确保决策的可靠性，并且在最大化预期回报的同时，尊重通过状态访问分布和期望风险配置之间的 OT 距离所规定的风险约束。通过利用 OT 的数学精度，论文提供了一种能够将风险考虑与传统强化学习目标相平衡的公式化方法，通过一系列定理来证明了风险分布、最优值函数和策略行为之间的关系。该研究通过 OT 的视角为强化学习提供了一个有前景的方向，确保奖励追求与风险意识的平衡融合。

Sep, 2023

具有鲁棒性保障的安全增强学习的最优传输扰动

本研究提出了一种基于最优传输成本不确定性集的安全强化学习框架，通过离线学习实现效率高、理论支持强的无需对数据收集过程进行过多假设的具有鲁棒性、安全性能的表现。在真实世界的强化学习套件中证明了该方法的优越性。

Jan, 2023

离线强化学习的轨迹概括

通过世界转换器进行线下强化学习的离线轨迹泛化方法（OTTO）在 D4RL 基准数据集上验证了其相对于最先进的线下强化学习方法具有显著优势。

Apr, 2024

通过最优输运进行离线强化学习的零样本偏好学习

提出一种新颖的零样本基于偏好的强化学习算法，利用源任务的标注偏好数据来推断目标任务的标注数据，然后利用 Gromov-Wasserstein 距离来对齐源任务和目标任务的轨迹分布，并使用 Robust Preference Transformer 模型来训练奖励函数和策略模型，其结果表明该方法具有在转移学习环境下学习偏好并能从含噪偏好标签学习奖励函数的能力。

Jun, 2023

离线强化学习的半监督奖励学习

通过半监督学习算法，探索在人类奖励注释最小的约束下进行奖励学习，从而在缺少奖励函数的情况下培训机器人行为，并发现奖励模型的质量与最终策略之间的关系。

Dec, 2020

半监督离线强化学习与无动作轨迹

通过开发新的算法流程，利用多种数据来源进行线下强化学习，仅使用 10％的数据可以达到与完全有标签的数据集相似的性能，同时进行大规模控制实验，以确定半监督学习应用于 RL 的最佳实践。

Oct, 2022

结合强化学习和最优传输的旅行商问题

利用熵正则化最优传输技术作为深度强化学习网络中的一层，以实现更快速的学习并在端到端训练期间强制执行分配约束和规定，从而对于解决组合优化问题的效率进行优化。

Mar, 2022

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023