上下文决策变换器：通过分层思维链强化学习

May, 2024

上下文决策变换器：通过分层思维链强化学习

In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought

Sili Huang, Jifeng Hu, Hechang Chen, Lichao Sun, Bo Yang

TL;DR提出了一种高层次的基于试错的方法，通过在环境中提供任务提示来实现离线强化学习的上下文学习，可以更高效地解决在线任务，并在长期任务中取得了最先进的结果。

Abstract

in-context learning is a promising approach for offline reinforcement learning (RL) to handle online tasks, which can be achieved by providing task prompts. Recent works demonstrated that in-context RL could emerge with

in-context learning offline reinforcement learning in-context decision transformer self-improvement trial-and-error

发现论文，激发创造

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023

基于监督预训练的证明上下文强化学习中的变压器决策者

该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型，提出了两种训练方法并证明了其能近似实现专家算法，同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法，这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。

Oct, 2023

应对新的顺序决策任务的泛化学习

使用离线数据集，通过训练大型多样化模型，能够在只有少量示范数据的情况下，使自主代理器在新的任务上进行上下文学习。

Dec, 2023

监督预训练可学习上下文强化学习

在这篇论文中，我们通过引入和研究 Decision-Pretrained Transformer（DPT）并展示它在上下文感知机器人决策中的运用，证明了大型变形机模型在多个数据集上的上下文学习能力，同时实现了对决策问题的研究及基于贝叶斯后验采样的跨任务性能。

Jun, 2023

在线决策转换器

本文提出了基于序列建模的决策转换器（ODT）算法，该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标，以实现高效的探索和调整。实验证明，在 D4RL 基准测试中，ODT 在绝对性能方面与最先进的方法具有竞争力，在微调过程中展现出更显著的提高。

Feb, 2022

强化学习中的上下文探索与利用

在传统的强化学习方法中，基于离线学习的在线策略学习是一种有希望的方法，然而其高昂的计算成本限制了其应用广度。本文提出了一种优化在线策略学习效率的 In-context Exploration-Exploitation (ICEE) 算法，通过在 Transformer 模型中在输入过程中进行探索利用的平衡策略，从而避免了昂贵的显式贝叶斯推断过程，并证明了该算法相比现有方法能以更少的训练时间学习解决新的强化学习任务。

Mar, 2024

基于 Transformer 的上下文强化学习中学习时间差分方法

此研究论文证明了 transformers 模型在前向传播中可以实现时间差异学习（TD learning）以及其他许多策略评估算法，通过使用多任务 TD 算法进行训练，并进行了理论分析。

May, 2024

分层变压器是高效的元强化学习者

Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach that improves learning efficiency and generalization capabilities, outperforming the previous state-of-the-art algorithm in various tasks.

Feb, 2024

长文本语言决策 Transformer 和指数倾斜在交互式文本环境中的应用

通过提出一种基于长 Transformer 语言模型和决策 Transformer 的 Long-Context Language Decision Transformers（LLDT）框架，成功应对了基于文本的游戏环境中智能体处理长序列文本、使用文本执行组合动作和从稀疏奖励中学习的挑战，并在传统奖励方法之外引入了三个组成部分，即指导代理朝着高可获得目标的指数倾斜、新颖的目标调节方法及对未来观测的模型，获得了在一些最具挑战性的 Jericho 游戏中比其他各种类型代理都要高的得分。

Feb, 2023

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023