Wikipedia 是否能帮助离线强化学习?
本论文旨在探究离线强化学习和语言建模之间的潜在关系,通过使用 Transformer 模型对不同的离线强化学习任务进行预训练,并在各种与语言相关的任务上进行评估,结果表明,与使用语言建模的模型相比,我们的 RL 预训练模型具有接近的性能,从而验证了这两种模态之间存在着共同的有用特征,进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。
Sep, 2022
本文介绍了如何使用序列建模来解决强化学习问题,使用 Transformer 架构来建模轨迹上的分布,并改造了波束搜索作为规划算法,在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性,同时将该方法与基于模型的算法相结合,使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。
Jun, 2021
通过使用离线数据集在真实机器人上对世界模型进行预训练,然后通过使用学习模型进行在线数据集的规划和微调,本文试图解决强化学习在真实机器人上训练时的数据效率问题,以及模型在训练和推理过程中的分布偏移问题,该方法在模拟环境和真实机器人上的视觉 - 动作控制任务上进行了验证,发现即使离线数据有限,该方法也能实现对已知和未知任务的少次数微调。
Oct, 2023
本文提出了一种名为 Bootstrapped Transformer 的新算法,将 bootstrapping 思想和模型自我生成更多离线数据相结合,进一步提高序列模型训练的效果,该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果,并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。
Jun, 2022
离线强化学习 (LaMo) 是一种基于决策 Transformer 的通用框架,旨在通过使用预训练语言模型和无广义知识的 LoRA 微调方法进行生成嵌入,并在稀奖励和有限数据样本任务中取得了最先进的性能。
Oct, 2023
最近的研究表明,对于离线深度强化学习,通过在大型语言语料库中对决策 Transformer 进行预训练可以提高下游性能。本文首先证明了语言对于提升性能并非必要,事实上,通过对一小部分迭代进行合成 IID 数据的预训练即可与大型语言语料库的预训练相匹配;此外,使用一步马尔科夫链生成的数据进行预训练还可以进一步提高性能。受这些实验结果的启发,本文还考虑了保守 Q 学习(CQL)的预训练,它是一种基于 Q 学习的离线深度强化学习算法,通常使用多层感知机(MLP)骨干网络。令人惊讶的是,通过对一小部分迭代使用简单的合成数据进行预训练也可以改善 CQL,在 D4RL Gym 运动数据集上提供持续的性能改进。本文的结果不仅说明了离线深度强化学习中预训练的重要性,还表明预训练数据可以是合成的,并通过非常简单的机制生成。
Oct, 2023
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现,发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳,并提供预训练模型和代码以鼓励该方向的进一步研究。
May, 2022