离线交互数据的距离加权监督学习

ICMLApr, 2023

离线交互数据的距离加权监督学习

Distance Weighted Supervised Learning for Offline Interaction Data

Joey Hejna, Jensen Gao, Dorsa Sadigh

TL;DR该研究介绍了一个名为 DWSL 的距离加权监督学习方法，用于从线下数据中学习目标条件策略，通过加权行动以估计最短路径距离，能够在高维图像领域中超过先前的目标条件 IL 和 RL 算法的性能。

Abstract

Sequential decision making algorithms often struggle to leverage different sources of unstructured offline interaction data. imitation learning (IL) methods based on supervised learning are robust, but require op

imitation learning offline data goal-conditioned policies supervised learning reinforcement learning

发现论文，激发创造

重新思考目标导向式监督学习及其与离线强化学习的关联

本文提出了一种名为 Weighted GCSL 的离线目标导向强化学习算法，通过引入高级复合权重，优化目标达成的下界限，具有优异的性能表现，特别适用于点和模拟机器人方面。

Feb, 2022

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023

原始 Wasserstein 模仿学习

本文提出了一种新的基于 Primal Wasserstein Imitation Learning（PWIL）算法的 Imitation Learning method，通过离线推导奖励函数，在 MuJoCo 领域的多个连续控制任务中实现了高效的样本复原，并且匹配的是 Wasserstein 距离，而非常用的性能代理。

Jun, 2020

指导策略优化的行为评分学习

通过使用 Wasserstein 距离在新定义的潜在行为空间中比较强化学习策略，我们引入了一种新方法，展示了通过使用 Wasserstein 距离的二元制定，可以学习策略行为的得分函数，用于引导 / 远离所需 / 不需要的行为，并将正则化项加入两个新的策略训练算法中。在一系列具有挑战性的环境中展示了比现有方法更好的表现。同时我们提供开源演示。

Jun, 2019

半监督和无监督技能探索的动态距离学习

本篇论文研究了如何通过自主互动学习动态距离，并使用它们来提供良好的奖励函数，以便无需人为设计奖励函数或目标示例，使用半监督学习方法在实际机器人和仿真环境中有效地执行复杂任务。

Jul, 2019

HIQL：将潜在状态作为行动的离线目标条件强化学习

无监督预训练成为了计算机视觉和自然语言处理的基石。强化学习中的目标条件下增强学习可以提供类似的自监督方法，以利用大量无标签（无回报）数据。本文提出了一种基于层次结构的算法，用于从离线数据中进行目标条件下的增强学习，并证明了该方法对估计值函数中的噪声具有鲁棒性，并且能够解决具有长时间跨度的任务。

Jul, 2023

离线强化学习中的潜变量优势加权策略优化

本文提出了一种名为 LAPO（latent-variable advantage-weighted policy optimization）的方法，通过使用潜变量的策略来解决离线数据集分布偏移问题，取得了在多项任务中超越同类方法的显著性能提升。

Mar, 2022

半监督离线强化学习与无动作轨迹

通过开发新的算法流程，利用多种数据来源进行线下强化学习，仅使用 10％的数据可以达到与完全有标签的数据集相似的性能，同时进行大规模控制实验，以确定半监督学习应用于 RL 的最佳实践。

Oct, 2022

以 Wasserstein 距离为导向的对抗模仿学习，结合奖励形状探索

本文提出的名为 WDAIL 的新算法，在采用 Wasserstein 距离、Proximal Policy Optimization 技术和不同的奖励函数形状等三个方面做了改进，提高了模拟学习的性能，并在 MuJoCo 的复杂连续控制任务中取得了显著性能。

Jun, 2020