通过未见过的状态增强在离线强化学习中利用泛化能力

Aug, 2023

通过未见过的状态增强在离线强化学习中利用泛化能力

Exploiting Generalization in Offline Reinforcement Learning via Unseen State Augmentations

Nirbhay Modhe, Qiaozi Gao, Ashwin Kalyan, Dhruv Batra, Govind Thattai...

TL;DR离线强化学习方法在探索和利用之间通过保守的值估计寻求平衡，该研究针对这一问题提出了一种基于模型的方法来增强对未知状态的利用性，并通过值观察下的扰动来找到未知状态，取得了改进的性能。

Abstract

offline reinforcement learning (RL) methods strike a balance between exploration and exploitation by conservative value estimation -- penalizing values of unseen states and actions. Model-free methods penalize va

offline reinforcement learning exploration and exploitation model-based methods unseen state augmentation strategy q-value estimates

发现论文，激发创造

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

离线强化学习中的等变数据增强技术

我们提出了一种新的方法来解决离线强化学习中的泛化问题，通过学习动力学模型并检查其是否与固定类型的转换即状态空间中的平移等变，使用熵正则化增加等变集合并用结果转变的样本增强数据集，最后基于增强数据集使用现成的离线强化学习算法离线学习新策略，实验证明该方法可以大大提高对环境进行测试时的策略效果。

Sep, 2023

离线强化学习中的选择性不确定性传播

研究了有限时间内的离线强化学习问题，提出了一种基于动作影响估计的算法，可在统计上简单实例上胜过传统的悲观方法。

Feb, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

基于模型逆向增强的离线模仿学习

提出了一种新的基于模型的框架 —— 离线模仿学习与自适应反向增强（SRA），该框架通过从离线演示构建反向动态模型，以自适应的方式生成导致专家观察到的状态的轨迹，并使用后续的强化学习方法从增强的轨迹中学习，将从专家未观察到的状态转移到专家观察到的状态。实证结果表明，该方法能够有效减轻协变量漖移，并在离线模仿学习基准上达到最先进的性能。

Jun, 2024

使用未标记数据增强离线强化学习

该研究提出了一种解决离线强化学习中的 OOD 问题的新方法，通过引入离线强化学习师生框架和策略相似度度量，使得学生策略不仅可以从离线数据集中获取见解，还可以从教师策略传递的知识中获得额外的信息，从而有效解决 OOD 问题。

Jun, 2024

一种简单的统一的基于不确定性引导的离线到在线强化学习框架

基于离线数据的强化学习方法，通常在实际应用中性能较低，本篇研究提出了一种基于不确定性的 Simple Unified uNcertainty-Guided (SUNG) 框架，通过量化不确定性，设计了一种乐观的探索策略，以及一种自适应的开发方法，在多个数据集上取得了最新的在线调优表现。

Jun, 2023

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023

使用残差生成建模提升离线强化学习

本文主要研究离线强化学习中的生成建模和状态 - 动作值函数学习，并提出了一种新的针对离线强化学习中策略近似误差的残差生成模型 AQL。实验证明，AQL 可以在不同质量测试数据集中学习到更准确的政策近似。另外，该离线 RL 方法在多人在线战场游戏 “王者荣耀” 中能够学习到更具竞争力的 AI 代理。

Jun, 2021

小数据集，巨大增益：通过基于模型的增强学习的离线预训练来提升性能

基于离线数据的强化学习预训练改进的模型数据增强策略，可以减少所需数据规模，并大幅提高在线微调效果和降低环境交互次数。

Dec, 2023