增强世界模型促进从单个脱机环境实现零样本动态泛化

ICLRApr, 2021

增强世界模型促进从单个脱机环境实现零样本动态泛化

Augmented World Models Facilitate Zero-Shot Dynamics Generalization From a Single Offline Environment

Philip J. Ball, Cong Lu, Jack Parker-Holder, Stephen Roberts

TL;DR本论文介绍了如何在在线环境中使用增强世界模型来改善零样本泛化，从而提高强化学习的性能。

Abstract

reinforcement learning from large-scale offline datasets provides us with the ability to learn policies without potentially unsafe or impractical exploration. Significant progress has been made in the past few ye

reinforcement learning offline datasets policy transfer augmented world models zero-shot generalization

发现论文，激发创造

离线强化学习中的等变数据增强技术

我们提出了一种新的方法来解决离线强化学习中的泛化问题，通过学习动力学模型并检查其是否与固定类型的转换即状态空间中的平移等变，使用熵正则化增加等变集合并用结果转变的样本增强数据集，最后基于增强数据集使用现成的离线强化学习算法离线学习新策略，实验证明该方法可以大大提高对环境进行测试时的策略效果。

Sep, 2023

在真实环境中微调离线世界模型

通过使用离线数据集在真实机器人上对世界模型进行预训练，然后通过使用学习模型进行在线数据集的规划和微调，本文试图解决强化学习在真实机器人上训练时的数据效率问题，以及模型在训练和推理过程中的分布偏移问题，该方法在模拟环境和真实机器人上的视觉 - 动作控制任务上进行了验证，发现即使离线数据有限，该方法也能实现对已知和未知任务的少次数微调。

Oct, 2023

基于基础世界模型的自主机器人零射击安全预测

提出了基础世界模型，通过将观察结果转化为有意义且因果潜在的表示，使代理动力学可以直接预测因果未来状态，并且在安全预测任务中表现优于标准世界模型，与监督学习相比具有可比拟的性能，而且不需要使用任何数据。

Mar, 2024

小数据集，巨大增益：通过基于模型的增强学习的离线预训练来提升性能

基于离线数据的强化学习预训练改进的模型数据增强策略，可以减少所需数据规模，并大幅提高在线微调效果和降低环境交互次数。

Dec, 2023

基于随机演示的学习：使用重要性采样扩散模型的离线强化学习

我们提出了一种新的离线强化学习方法，利用引导扩散世界模型来直接评估离线目标策略，并进行一种重要性抽样的世界模型更新来使其与更新后的策略适应。在 D4RL 环境中的评估结果显示，在只有随机或中等专家示范的情况下，我们的方法相较于现有基线表现显著改进，从而需要改进世界模型与离线策略评估之间的对齐。

May, 2024

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

训练鲁棒性世界模型的无奖励课程

本文提出了一种名为 WAKER 的基于 minimax 遗憾目标的算法，可在 reward-free 环境下有效地学习鲁棒的世界模型，以提高不同环境下的机器人性能。

Jun, 2023

深度强化学习中的自动数据增强以实现泛化能力

本文通过比较三种方法，探究如何寻找适当的数据增强方式，并结合两个新的正则化项，以理论上的方式为某些 actor-critic 算法的数据增广提供支持，最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了～40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外，我们还展示了我们的代理学习出更能适应环境变化的策略和表示，包括不保留背景信息的变化。

Jun, 2020

学习生成增强图像用于模拟到真实场景的策略迁移

本文探讨在模拟环境中学习机器人操作策略的方法，通过使用深度图像数据的随机扩增策略，实现了在非真实场景下学习并获得了验证。

Mar, 2019

高效的保守世界模型下的模仿学习

我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能，只需要 10 个演示且没有奖励标签，同时解决了复杂的灵巧操作任务。

May, 2024