Context-Former: 通过潜在条件序列建模图像拼接
通过使用多实体并行处理的结构,本研究提出了一种名为 Decision ConvFormer(DC)的新型动作序列预测模型,它在标准的强化学习基准测试中表现出了最先进的性能,并且对数据的底层含义有更好的理解和增强的泛化能力。
Oct, 2023
决策 Transformer 是一种创新算法,利用了转换器架构在强化学习中的最新进展;我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法,并展示了 DT 作为该框架的一个特例,同时讨论了潜在的失败选择;受到这些观察的启发,我们研究了如何联合优化高层和低层策略以实现拼接能力,从而进一步发展了新的离线强化学习算法;我们的实证结果清楚地表明,所提出的算法在多个控制和导航基准测试中明显优于 DT;我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。
Nov, 2023
提出了一种高层次的基于试错的方法,通过在环境中提供任务提示来实现离线强化学习的上下文学习,可以更高效地解决在线任务,并在长期任务中取得了最先进的结果。
May, 2024
该研究从数据子优劣性和任务复杂性两个方面探讨了离线强化学习的三种主要范式:Q-Learning、Imitation Learning 和 Sequence Modeling 的表现,并发现当接收到低质量数据并且奖励稀少时,Sequence Modeling 更优,因为它需要更多的数据但更加稳健且可以更好地适应任务复杂度。
May, 2023
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。
Jun, 2021
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
离线强化学习中,学到的策略性能高度依赖于离线数据集的质量。然而,在许多情况下,离线数据集只包含非常有限的最优轨迹,这对离线强化学习算法提出了挑战,因为智能体必须能够转移到高奖励区域。为了解决这个问题,我们引入了一种基于扩散的轨迹拼接(DiffStitch)方法,这是一种新颖的基于扩散的数据增强技术,能够在轨迹之间生成连接转移。DiffStitch 有效地连接了低奖励轨迹与高奖励轨迹,形成全局最优轨迹,以解决离线强化学习算法面临的挑战。在 D4RL 数据集上进行的实证实验表明 DiffStitch 在 RL 方法中的有效性。值得注意的是,DiffStitch 在一步方法(IQL)、模仿学习方法(TD3+BC)和轨迹优化方法(DT)的性能上有了显著提升。
Feb, 2024
在强化学习中,通过应用因果推理和决策变换机制,从先前的环境中收集数据并将其用于新环境中的自适应转移学习可以成功地获得最佳策略,并保留大部分收益。
Oct, 2021
该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型,提出了两种训练方法并证明了其能近似实现专家算法,同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法,这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。
Oct, 2023