离线强化学习中的等变数据增强技术

Sep, 2023

离线强化学习中的等变数据增强技术

Equivariant Data Augmentation for Generalization in Offline Reinforcement Learning

Cristina Pinneri, Sarah Bechtle, Markus Wulfmeier, Arunkumar Byravan, Jingwei Zhang...

TL;DR我们提出了一种新的方法来解决离线强化学习中的泛化问题，通过学习动力学模型并检查其是否与固定类型的转换即状态空间中的平移等变，使用熵正则化增加等变集合并用结果转变的样本增强数据集，最后基于增强数据集使用现成的离线强化学习算法离线学习新策略，实验证明该方法可以大大提高对环境进行测试时的策略效果。

Abstract

We present a novel approach to address the challenge of generalization in offline reinforcement learning (RL), where the agent learns from a fixed dataset without any additional interaction with the environment.

offline reinforcement learning generalization dynamics model equivariant test performance

发现论文，激发创造

等变离线强化学习

通过使用有限数量的演示，本研究探讨了在离线强化学习中使用 $SO (2)$- 等变神经网络的可能性，并通过实验证明了等变性如何提高低数据情况下的离线学习算法。

Jun, 2024

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023

深度强化学习中的自动数据增强以实现泛化能力

本文通过比较三种方法，探究如何寻找适当的数据增强方式，并结合两个新的正则化项，以理论上的方式为某些 actor-critic 算法的数据增广提供支持，最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了～40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外，我们还展示了我们的代理学习出更能适应环境变化的策略和表示，包括不保留背景信息的变化。

Jun, 2020

学习无关变量以实现策略泛化

本文研究机器学习领域中的强化学习问题，主要关注于学习能够适应不同环境的策略，探讨数据增强、元学习和对抗训练三种可能的策略泛化方法，发现数据增强方法是有效的，并研究了元学习和对抗学习作为替代的任务不可知方法的潜力。

Sep, 2018

小数据集，巨大增益：通过基于模型的增强学习的离线预训练来提升性能

基于离线数据的强化学习预训练改进的模型数据增强策略，可以减少所需数据规模，并大幅提高在线微调效果和降低环境交互次数。

Dec, 2023

离线强化学习的轨迹概括

通过世界转换器进行线下强化学习的离线轨迹泛化方法（OTTO）在 D4RL 基准数据集上验证了其相对于最先进的线下强化学习方法具有显著优势。

Apr, 2024

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023

增强世界模型促进从单个脱机环境实现零样本动态泛化

本论文介绍了如何在在线环境中使用增强世界模型来改善零样本泛化，从而提高强化学习的性能。

Apr, 2021

半监督离线强化学习与无动作轨迹

通过开发新的算法流程，利用多种数据来源进行线下强化学习，仅使用 10％的数据可以达到与完全有标签的数据集相似的性能，同时进行大规模控制实验，以确定半监督学习应用于 RL 的最佳实践。

Oct, 2022

GTA: 借助导引的增强离线学习中的生成轨迹增强

离线强化学习中，利用生成轨迹增强（GTA）的数据增强策略可以提高数据质量并改善算法性能。

May, 2024