小样本策略概括的决策 Transformer

ICMLJun, 2022

Prompting Decision Transformer for Few-Shot Policy Generalization

Mengdi Xu, Yikang Shen, Shun Zhang, Yuchen Lu, Ding Zhao...

TL;DR人类可以利用以往的经验从少量的演示中学习新的任务。我们提出了一种基于 Prompt-DT 的模型，它借助 Transformer 架构的序列建模能力和 prompt 框架，在离线 RL 中实现了少量样本的适应性。我们的实验表明，Prompt-DT 是一种强大的少量样本学习器，可以在目标任务上进行良好的泛化。

Abstract

Humans can leverage prior experience and learn novel tasks from a handful of demonstrations. In contrast to offline meta-reinforcement learning, which aims to achieve quick adaptation through better algorithm design, we investigate the effect of architecture inductive bias on the

few-shot learning offline meta-reinforcement learning prompt-based decision transformer transformer architecture trajectory prompt

发现论文，激发创造

具备偏好排名的 Prompt-Tuning 决策 Transformer

本文提出了 Prompt-Tuning DT 算法，使用轨迹段作为提示来指导强化学习（RL）代理获取环境信息并通过黑盒调整来优化提示，以提供更多相关信息和指导代理走向特定任务的方向，在低数据情况下仅学习 0.03％的参数即可实现与全模型微调相当甚至更好的性能，为 RL 中优化大型代理的特定任务提供了有前途的方向。

May, 2023

零样本策略学习的极简提示

通过在任务参数上进行调节，基于 Transformer 的模型展现出了与依赖演示任务相当甚至更好的零样本泛化能力。

May, 2024

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023

高效在线策略适应的超级决策 Transformer

Hyper-Decision Transformer (HDT) framework proposes an adaptation module initialized by a hyper-network to enable efficient adaptation to novel tasks for offline reinforcement learning, demonstrating better performance than state-of-the-art baselines in terms of task success rates.

Apr, 2023

决策变压器作为部分可观测连续控制的基础模型

利用预训练的语言模型，探索决策变压器（DT）架构作为一种通用的控制器综合框架，同时展示了 DT 在各种控制任务上的能力，包括对非线性动力系统和部分微分方程进行控制，并具备出色的零样本泛化能力。

Apr, 2024

面向任务型对话系统的基于提示的小样本学习方法在信念状态跟踪中的研究

我们探讨了基于任务导向的对话系统的对话信念状态跟踪（DST）问题。通过以 Prompt 为基础进行少样本学习，我们证明了 Prompt-based 方法在 DST 的 Few-shot 学习中具有潜在的潜力，并提供了未来改进的方向。

Apr, 2022

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

Few-Shot Bot: 基于提示的对话系统学习

本文探讨了通过基于提示的少样本学习在对话任务中的应用，通过对多种大小的语言模型进行测试，提出一种新的无需微调的提示分类器，并结合技能选择器创建了一种称为 Few-Shot Bot 的端到端聊天机器人，只需使用少量对话示例便可以完成知识检索并生成人类般自然的响应。

Oct, 2021

在线决策转换器

本文提出了基于序列建模的决策转换器（ODT）算法，该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标，以实现高效的探索和调整。实验证明，在 D4RL 基准测试中，ODT 在绝对性能方面与最先进的方法具有竞争力，在微调过程中展现出更显著的提高。

Feb, 2022

P2DT：基于渐进提示的决策 Transformer 对任务增量学习中的遗忘进行缓解

通过在新任务训练期间动态追加决策标记，我们的方法，Progressive Prompt Decision Transformer (P2DT)，改进了基于 transformer 的模型，从而促进了任务特定策略，减轻并行和离线强化学习情景中发生的灾难性遗忘，并且能够保留前期研究的知识并适应不断增加的任务环境。

Jan, 2024