行动前先思考：将语言推理与行动交错的统一策略

Apr, 2023

行动前先思考：将语言推理与行动交错的统一策略

Think Before You Act: Unified Policy for Interleaving Language Reasoning with Actions

Lina Mezghani, Piotr Bojanowski, Karteek Alahari, Sainbayar Sukhbaatar

TL;DR提出了一种将 Transformer 模型与强化学习相结合，并在 BabyAI 任务上表现出色的新方法，其中模型输出既包含动作，也包含文本描述。

Abstract

The success of transformer models trained with a language modeling objective brings a promising opportunity to the reinforcement learning framework. Decision Transformer is a step towards this direction, showing

transformer models reinforcement learning language reasoning actions babyai

发现论文，激发创造

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

对话行为感知 Transformer 用于对话策略学习

利用预训练语言模型的纯文本知识，加速强化学习代理的学习速度，并通过探索对话行为空间最大化长期累积奖励，提出了一种对话行为感知的变压器编码器（DaTrans）。该模型通过在模拟器和人类评估中的验证展示了其有效性和高效性。

Sep, 2023

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

面向机器人操作的指导驱动历史感知策略

本研究提出了一种基于 Transformer 的方法来处理人类语言指令和多视角场景观察，以提高机器人的精准操作，并在 RLBench 基准测试中成功实现 74 项任务，还表现出对未曾见过变化的任务的良好泛化性能。

Sep, 2022

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023

ReAct: 在语言模型中协同推理与行动

使用名为 ReAct 的方法，在大型语言模型中交错生成推理迹线和任务特定的操作，以促进两者之间的协作，从而在多项语言理解和决策任务中提高其有效性，同时优于缺乏推理或行为组件的方法。

Oct, 2022

Q-Learning 的稳定 Transformer-based 动作序列生成

本文提出了一种基于 Transformer 的 Deep Q-Learning 方法，该方法在稳定性和 Atari 基准方面表现良好，并为探究 Transformer 与强化学习之间的关系提供了额外见解。

Oct, 2020

理解预训练变压器在序贯决策中的训练和泛化

本文考虑了一类顺序决策问题的受监督预训练变压器模型，并且提出了一种解决预训练变压器训练及泛化问题的自然方法，该方法通过在训练过程中包含变压器生成的动作序列来提供更好的性能。同时，文章还分析了预训练变压器作为一种算法的特性，解释了其缺乏探索性和如何自动解决此问题，并在数值上将其与结构化算法相比较。

May, 2024

语言模型引导的可解释视频行为推理

通过语言模型引导的可解释的动作识别框架 (LaIAR)，提高了视频模型的性能和可解释性。

Apr, 2024