DITTO: 带有全局模型的离线模仿学习

Feb, 2023

DITTO: 带有全局模型的离线模仿学习

DITTO: Offline Imitation Learning with World Models

Branton DeMoss, Paul Duckworth, Nick Hawes, Ingmar Posner

TL;DR使用物理世界模型和在线强化学习，本文提出了一种 DITTO 的离线模仿学习算法，用于解决协变量转移的问题，并通过 Atari 游戏环境测试表明，在线学习性能已经达到了最先进水平。

Abstract

We propose DITTO, an offline imitation learning algorithm which uses world models and on-policy reinforcement learning to addresses the problem of →

offline imitation learning world models reinforcement learning covariate shift atari environments

发现论文，激发创造

高效的保守世界模型下的模仿学习

我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能，只需要 10 个演示且没有奖励标签，同时解决了复杂的灵巧操作任务。

May, 2024

通过离线数据缓解模仿学习中的协变量漂移

本研究基于静态离线数据，提出了 MILO 框架及算法，用于高效解决无需在线交互式的模仿学习问题，其能够成功应对较弱行为准则下的状态行为的偏移问题，最终成功模仿高水平行为准则的动作。

Jun, 2021

基于随机演示的学习：使用重要性采样扩散模型的离线强化学习

我们提出了一种新的离线强化学习方法，利用引导扩散世界模型来直接评估离线目标策略，并进行一种重要性抽样的世界模型更新来使其与更新后的策略适应。在 D4RL 环境中的评估结果显示，在只有随机或中等专家示范的情况下，我们的方法相较于现有基线表现显著改进，从而需要改进世界模型与离线策略评估之间的对齐。

May, 2024

协作世界模型：一种在线 - 离线迁移强化学习方法

该研究提出了一种称为协作世界模型（CoWorld）的转移学习方法，在离线数据集下为视觉强化学习模型提高性能，并成功缓解了价值函数的过高估计问题。

May, 2023

意图对齐：离线优化传输的模仿学习

通过从环境中观察专家，尽管没有明确的奖励或动作标签，但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法，在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示，定义了内在奖励函数，改善了其他线下强化学习算法在稀疏奖励任务中的性能，并超过了 D4RL 基准的最新线下模仿学习算法。

Feb, 2024

在真实环境中微调离线世界模型

通过使用离线数据集在真实机器人上对世界模型进行预训练，然后通过使用学习模型进行在线数据集的规划和微调，本文试图解决强化学习在真实机器人上训练时的数据效率问题，以及模型在训练和推理过程中的分布偏移问题，该方法在模拟环境和真实机器人上的视觉 - 动作控制任务上进行了验证，发现即使离线数据有限，该方法也能实现对已知和未知任务的少次数微调。

Oct, 2023

基于观测和示例的离线模仿的简明解决方案：可能包含不完整轨迹

提出了一种从观测中进行离线模仿的方法，并使用轨迹感知的加权行为克隆策略，提高了鲁棒性和效果。

Nov, 2023

反向软 Q 学习用于离线模仿与次优示范

离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法，通过添加正则化项来对齐学习得到的回报函数，从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。

Feb, 2024

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

基于 Fenchel 二次对偶的多样化离线模仿

我们提出了一种离线技能发现算法，该算法基于互信息目标的最大化，通过 KL 散度进行约束，确保每种技能的状态占用率保持在离线数据集的支持范围内的专家状态占用率附近，从而学习与专家相一致的多样化技能。

Jul, 2023