序列建模中应对乐观主义策略的强化学习

Jul, 2022

序列建模中应对乐观主义策略的强化学习

Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning

Adam Villaflor, Zhe Huang, Swapnil Pande, John Dolan, Jeff Schneider

TL;DR本研究提出了一种解决优化偏差的方法，即通过显式分离策略和世界模型，并在测试时寻找能够应对多种可能未来环境的策略，以更好地完成多种自动驾驶任务。

Abstract

Impressive results in natural language processing (NLP) based on the transformer neural network architecture have inspired researchers to explore viewing →

natural language processing transformer neural network offline reinforcement learning autonomous driving optimism bias

发现论文，激发创造

离线强化学习问题的序列建模方法

本文介绍了如何使用序列建模来解决强化学习问题，使用 Transformer 架构来建模轨迹上的分布，并改造了波束搜索作为规划算法，在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性，同时将该方法与基于模型的算法相结合，使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。

Jun, 2021

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

序列建模是离线强化学习的强有力竞争者

该研究从数据子优劣性和任务复杂性两个方面探讨了离线强化学习的三种主要范式：Q-Learning、Imitation Learning 和 Sequence Modeling 的表现，并发现当接收到低质量数据并且奖励稀少时，Sequence Modeling 更优，因为它需要更多的数据但更加稳健且可以更好地适应任务复杂度。

May, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

离线强化学习中的引导式 Transformer

本文提出了一种名为 Bootstrapped Transformer 的新算法，将 bootstrapping 思想和模型自我生成更多离线数据相结合，进一步提高序列模型训练的效果，该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果，并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。

Jun, 2022

Wikipedia 是否能帮助离线强化学习？

本研究探索了将强化学习作为序列建模的一种形式，并研究了预训练序列模型在其他领域（视觉、语言）上进行细调时的可迁移性，同时提出了改善这些领域之间转移的技术。结果表明，在各种环境下加速训练 3-6 倍，并使用 Wikipedia 预训练和 GPT2 语言模型在各种任务中实现了最先进的表现。

Jan, 2022

ENTROPY: 环境转换器和脱机策略优化

该研究提出了一种基于序列建模的架构，即 “环境变换器（Environment Transformer）”，以解决先前基于模型的离线强化学习方法在生成多步轨迹时缺乏长期预测能力的问题，并通过该架构提出了一种新的名为 ENTROPY 的强化学习算法，该算法通过通过 “环境变换器” 学习动态模型和奖励函数，并执行离线策略优化。该算法在 MuJoCo 连续控制 RL 环境上进行了评估，结果表明，相对于现有的基于模型的离线方法，ENTROPY 表现出更强大的长期轨迹预测能力，并与目前最先进的基于模型和基于模型的离线强化学习方法相比表现优秀。

Mar, 2023

在信任状态之前双重检查：基于模型的想象中的置信度感知双向离线模型

本文提出一种置信度感知的双向离线模型想象算法，使用训练好的双向动力学模型和推进策略来扩充离线数据集，以增强在线学习的推广能力。实验结果表明，该算法显著提高了现有模型无关的线下 RL 算法的性能，并与基线方法相比获得了竞争性或更好的得分。

Jun, 2022

线下到线上强化学习的贝叶斯设计原则

离线强化学习（RL）在探索可能成本高昂或不安全的真实世界应用中至关重要。然而，离线学习的策略通常是次优的，需要进一步进行在线微调。本文解决了离线到在线微调的基本困境：如果智能体保持悲观态度，可能无法学到更好的策略，而如果直接变得乐观，性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略，而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降，同时保证找到最优策略。基于我们的理论发现，我们提出了一种优于现有方法的新算法，在各种基准测试中展示了我们方法的有效性。总体而言，所提出的方法为离线到在线 RL 提供了一种新的视角，有潜力使离线数据的学习更加有效。

May, 2024