小数据集，巨大增益：通过基于模型的增强学习的离线预训练来提升性能

Dec, 2023

小数据集，巨大增益：通过基于模型的增强学习的离线预训练来提升性能

Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline Pre-Training with Model Based Augmentation

Girolamo Macaluso, Alessandro Sestini, Andrew D. Bagdanov

TL;DR基于离线数据的强化学习预训练改进的模型数据增强策略，可以减少所需数据规模，并大幅提高在线微调效果和降低环境交互次数。

Abstract

offline reinforcement learning leverages pre-collected datasets of transitions to train policies. It can serve as effective initialization for online algorithms, enhancing sample efficiency and speeding up convergence. However, when such datasets are limited in size and quality, offlin

offline reinforcement learning pre-training data augmentation world model environment interactions

发现论文，激发创造

在真实环境中微调离线世界模型

通过使用离线数据集在真实机器人上对世界模型进行预训练，然后通过使用学习模型进行在线数据集的规划和微调，本文试图解决强化学习在真实机器人上训练时的数据效率问题，以及模型在训练和推理过程中的分布偏移问题，该方法在模拟环境和真实机器人上的视觉 - 动作控制任务上进行了验证，发现即使离线数据有限，该方法也能实现对已知和未知任务的少次数微调。

Oct, 2023

利用离线数据加速程序生成环境下的强化学习

研究了强化学习中采用离线轨迹进行数据增强的方法，发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略，预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。

Apr, 2023

面向离线 - 在线强化学习的政策扩展方案

通过先预训练离线数据，再使用强化学习进行在线微调是一种有效的控制策略学习策略，本文提出了一种策略扩展方案以增加新的策略来参与探索，有效提高了学习效率和性能表现。

Feb, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

离线元强化学习与在线自我监督

本文提出了一种混合离线元强化学习算法，能够使用有奖离线数据来元训练自适应策略，并通过收集额外的非监督在线数据来补偿分布偏移，这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。

Jul, 2021

表示很重要：为序贯决策进行离线预训练

本文研究了如何将离线数据转换为强化学习模型的有效训练，通过使用无监督学习目标进行预训练的方法，本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案，并通过实验证明了其有效性。

Feb, 2021

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。

Feb, 2023

离线预训练加速探索和表示学习

从单个离线数据集中分别学习噪声对比估计的状态表示和辅助奖励模型，能够显着提高 NetHack 基准测试的样本效率，同时突出了我们实验设置的各种组成部分和关键洞察。

Mar, 2023

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019

使用合成数据进行预训练有助于离线强化学习

最近的研究表明，对于离线深度强化学习，通过在大型语言语料库中对决策 Transformer 进行预训练可以提高下游性能。本文首先证明了语言对于提升性能并非必要，事实上，通过对一小部分迭代进行合成 IID 数据的预训练即可与大型语言语料库的预训练相匹配；此外，使用一步马尔科夫链生成的数据进行预训练还可以进一步提高性能。受这些实验结果的启发，本文还考虑了保守 Q 学习（CQL）的预训练，它是一种基于 Q 学习的离线深度强化学习算法，通常使用多层感知机（MLP）骨干网络。令人惊讶的是，通过对一小部分迭代使用简单的合成数据进行预训练也可以改善 CQL，在 D4RL Gym 运动数据集上提供持续的性能改进。本文的结果不仅说明了离线深度强化学习中预训练的重要性，还表明预训练数据可以是合成的，并通过非常简单的机制生成。

Oct, 2023