离线元强化学习的上下文变换器
本论文旨在探究离线强化学习和语言建模之间的潜在关系,通过使用 Transformer 模型对不同的离线强化学习任务进行预训练,并在各种与语言相关的任务上进行评估,结果表明,与使用语言建模的模型相比,我们的 RL 预训练模型具有接近的性能,从而验证了这两种模态之间存在着共同的有用特征,进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。
Sep, 2022
本文提出了一种混合离线元强化学习算法,能够使用有奖离线数据来元训练自适应策略,并通过收集额外的非监督在线数据来补偿分布偏移,这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。
Jul, 2021
本文针对离线强化学习中的元学习问题,通过引入任务注意力机制和对比学习目标来提高任务表示的鲁棒性,从而改进了现有算法,并在多个元强化学习基准测试中展示了优越的性能和稳健性。
Feb, 2021
本文提出了基于序列建模的决策转换器(ODT)算法,该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标,以实现高效的探索和调整。实验证明,在 D4RL 基准测试中,ODT 在绝对性能方面与最先进的方法具有竞争力,在微调过程中展现出更显著的提高。
Feb, 2022
本文提出了一种名为 Bootstrapped Transformer 的新算法,将 bootstrapping 思想和模型自我生成更多离线数据相结合,进一步提高序列模型训练的效果,该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果,并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。
Jun, 2022
该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型,提出了两种训练方法并证明了其能近似实现专家算法,同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法,这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。
Oct, 2023
离线强化学习 (LaMo) 是一种基于决策 Transformer 的通用框架,旨在通过使用预训练语言模型和无广义知识的 LoRA 微调方法进行生成嵌入,并在稀奖励和有限数据样本任务中取得了最先进的性能。
Oct, 2023
本研究探索了将强化学习作为序列建模的一种形式,并研究了预训练序列模型在其他领域(视觉、语言)上进行细调时的可迁移性,同时提出了改善这些领域之间转移的技术。结果表明,在各种环境下加速训练 3-6 倍,并使用 Wikipedia 预训练和 GPT2 语言模型在各种任务中实现了最先进的表现。
Jan, 2022
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
离线元强化学习(OMRL)的出现作为离线 RL 和元 RL 的结合在使 RL 代理能够多任务和快速适应并安全地获取知识方面显示出了巨大的潜力。我们提出将离线元强化学习的几个关键里程碑整合到一个统一的信息论框架中,并展示了现有的上下文 OMRL 算法本质上是通过实现各种近似界限优化任务变量 $oldsymbol {M}$ 与其潜在表示 $oldsymbol {Z}$ 之间的相互信息目标。基于理论见解和信息瓶颈原理,我们提出了一种新的算法称为 UNICORN,在 RL 基准、上下文转变场景、数据质量和深度学习架构的广泛领域中展示了卓越的泛化能力,达到了新的技术水平。我们相信我们的框架可以为新的优化界限和上下文 OMRL 算法开辟新的研究方向。
Feb, 2024