上下文决策变换器:通过分层思维链强化学习
决策 Transformer 是一种创新算法,利用了转换器架构在强化学习中的最新进展;我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法,并展示了 DT 作为该框架的一个特例,同时讨论了潜在的失败选择;受到这些观察的启发,我们研究了如何联合优化高层和低层策略以实现拼接能力,从而进一步发展了新的离线强化学习算法;我们的实证结果清楚地表明,所提出的算法在多个控制和导航基准测试中明显优于 DT;我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。
Nov, 2023
该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型,提出了两种训练方法并证明了其能近似实现专家算法,同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法,这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。
Oct, 2023
在这篇论文中,我们通过引入和研究 Decision-Pretrained Transformer(DPT)并展示它在上下文感知机器人决策中的运用,证明了大型变形机模型在多个数据集上的上下文学习能力,同时实现了对决策问题的研究及基于贝叶斯后验采样的跨任务性能。
Jun, 2023
本文提出了基于序列建模的决策转换器(ODT)算法,该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标,以实现高效的探索和调整。实验证明,在 D4RL 基准测试中,ODT 在绝对性能方面与最先进的方法具有竞争力,在微调过程中展现出更显著的提高。
Feb, 2022
在传统的强化学习方法中,基于离线学习的在线策略学习是一种有希望的方法,然而其高昂的计算成本限制了其应用广度。本文提出了一种优化在线策略学习效率的 In-context Exploration-Exploitation (ICEE) 算法,通过在 Transformer 模型中在输入过程中进行探索利用的平衡策略,从而避免了昂贵的显式贝叶斯推断过程,并证明了该算法相比现有方法能以更少的训练时间学习解决新的强化学习任务。
Mar, 2024
此研究论文证明了 transformers 模型在前向传播中可以实现时间差异学习(TD learning)以及其他许多策略评估算法,通过使用多任务 TD 算法进行训练,并进行了理论分析。
May, 2024
Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach that improves learning efficiency and generalization capabilities, outperforming the previous state-of-the-art algorithm in various tasks.
Feb, 2024
通过提出一种基于长 Transformer 语言模型和决策 Transformer 的 Long-Context Language Decision Transformers(LLDT)框架,成功应对了基于文本的游戏环境中智能体处理长序列文本、使用文本执行组合动作和从稀疏奖励中学习的挑战,并在传统奖励方法之外引入了三个组成部分,即指导代理朝着高可获得目标的指数倾斜、新颖的目标调节方法及对未来观测的模型,获得了在一些最具挑战性的 Jericho 游戏中比其他各种类型代理都要高的得分。
Feb, 2023
本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习,该方法利用 Transformer 注意力和梯度下降优化之间的双重形式,将上下文学习过程分为 'Thinking' 和推理阶段,通过递归前向优化演示来增强 LLLs 的推理能力,并且将得到的元梯度通过注意力应用于最终的输出预测中,从而有效地、高效地适应下游任务。
May, 2023