决策 ConvFormer: 元前馈中的局部过滤足以进行决策
决策 Transformer 是一种创新算法,利用了转换器架构在强化学习中的最新进展;我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法,并展示了 DT 作为该框架的一个特例,同时讨论了潜在的失败选择;受到这些观察的启发,我们研究了如何联合优化高层和低层策略以实现拼接能力,从而进一步发展了新的离线强化学习算法;我们的实证结果清楚地表明,所提出的算法在多个控制和导航基准测试中明显优于 DT;我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。
Nov, 2023
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。
Jun, 2021
通过引入场景信息的模仿学习和序列建模以匹配专家轨迹,并将弱优轨迹片段无缝衔接,我们在离线强化学习中的决策变换器(DT)上提供了 DT 缺乏的衔接能力,实验证明 ContextFormer 在多种模仿学习设置下具有竞争力,超过了其他竞争的 DT 变体,展示了其卓越的性能。
Jan, 2024
利用预训练的语言模型,探索决策变压器(DT)架构作为一种通用的控制器综合框架,同时展示了 DT 在各种控制任务上的能力,包括对非线性动力系统和部分微分方程进行控制,并具备出色的零样本泛化能力。
Apr, 2024
通过比较决策 Transformer(DT)和基于演员 - 评论者结构与经验回放的现有方法,我们研究了连续离线强化学习(CORL)框架中的 DT,发现 DT 在学习效率、分布转移缓解和零 - shot 泛化方面具有优势,但在监督参数更新时会加剧遗忘问题,我们引入多头 DT(MH-DT)和低秩自适应 DT(LoRA-DT)以减轻 DT 的遗忘问题。在 MoJuCo 和 Meta-World 基准上的广泛实验表明,我们的方法优于现有的 CORL 基准,在增强学习能力和内存效率方面展示出卓越的性能。
Jan, 2024
在强化学习中,通过应用因果推理和决策变换机制,从先前的环境中收集数据并将其用于新环境中的自适应转移学习可以成功地获得最佳策略,并保留大部分收益。
Oct, 2021
本文介绍了一种离线强化学习的新方法 —— 图决策 Transformer(GDT)。GDT 将输入序列建模为因果图,以捕捉根本上不同概念之间的潜在依赖关系并促进时间和因果关系的学习。GDT 在图形输入处理中使用图形 Transformer,并在视觉任务中使用一个可选的序列 Transformer 来处理细粒度空间信息。实验表明,GDT 在基于图像的 Atari 和 OpenAI Gym 上的性能可以与最先进的离线强化学习方法相媲美或超越。
Mar, 2023
人类可以利用以往的经验从少量的演示中学习新的任务。我们提出了一种基于 Prompt-DT 的模型,它借助 Transformer 架构的序列建模能力和 prompt 框架,在离线 RL 中实现了少量样本的适应性。我们的实验表明,Prompt-DT 是一种强大的少量样本学习器,可以在目标任务上进行良好的泛化。
Jun, 2022
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
本文提出了基于序列建模的决策转换器(ODT)算法,该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标,以实现高效的探索和调整。实验证明,在 D4RL 基准测试中,ODT 在绝对性能方面与最先进的方法具有竞争力,在微调过程中展现出更显著的提高。
Feb, 2022