小样本策略概括的决策 Transformer
本文提出了 Prompt-Tuning DT 算法,使用轨迹段作为提示来指导强化学习(RL)代理获取环境信息并通过黑盒调整来优化提示,以提供更多相关信息和指导代理走向特定任务的方向,在低数据情况下仅学习 0.03%的参数即可实现与全模型微调相当甚至更好的性能,为 RL 中优化大型代理的特定任务提供了有前途的方向。
May, 2023
决策 Transformer 是一种创新算法,利用了转换器架构在强化学习中的最新进展;我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法,并展示了 DT 作为该框架的一个特例,同时讨论了潜在的失败选择;受到这些观察的启发,我们研究了如何联合优化高层和低层策略以实现拼接能力,从而进一步发展了新的离线强化学习算法;我们的实证结果清楚地表明,所提出的算法在多个控制和导航基准测试中明显优于 DT;我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。
Nov, 2023
Hyper-Decision Transformer (HDT) framework proposes an adaptation module initialized by a hyper-network to enable efficient adaptation to novel tasks for offline reinforcement learning, demonstrating better performance than state-of-the-art baselines in terms of task success rates.
Apr, 2023
利用预训练的语言模型,探索决策变压器(DT)架构作为一种通用的控制器综合框架,同时展示了 DT 在各种控制任务上的能力,包括对非线性动力系统和部分微分方程进行控制,并具备出色的零样本泛化能力。
Apr, 2024
我们探讨了基于任务导向的对话系统的对话信念状态跟踪(DST)问题。通过以 Prompt 为基础进行少样本学习,我们证明了 Prompt-based 方法在 DST 的 Few-shot 学习中具有潜在的潜力,并提供了未来改进的方向。
Apr, 2022
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。
Jun, 2021
本文探讨了通过基于提示的少样本学习在对话任务中的应用,通过对多种大小的语言模型进行测试,提出一种新的无需微调的提示分类器,并结合技能选择器创建了一种称为 Few-Shot Bot 的端到端聊天机器人,只需使用少量对话示例便可以完成知识检索并生成人类般自然的响应。
Oct, 2021
本文提出了基于序列建模的决策转换器(ODT)算法,该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标,以实现高效的探索和调整。实验证明,在 D4RL 基准测试中,ODT 在绝对性能方面与最先进的方法具有竞争力,在微调过程中展现出更显著的提高。
Feb, 2022
通过在新任务训练期间动态追加决策标记,我们的方法,Progressive Prompt Decision Transformer (P2DT),改进了基于 transformer 的模型,从而促进了任务特定策略,减轻并行和离线强化学习情景中发生的灾难性遗忘,并且能够保留前期研究的知识并适应不断增加的任务环境。
Jan, 2024