Q-Learning 的稳定 Transformer-based 动作序列生成
在自然语言处理领域得到了突破性的成功后,本文提出一种修改后的” 转换器” 架构,即门控 Transformer-XL (GTrXL),在部分可观察的强化学习 RL 领域中实现了与竞争性 LSTM 基线相媲美的稳定性和性能,超过了 LSTM 并在多任务 DMLab-30 基准套件上取得了最新的成果。
Oct, 2019
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。
Jun, 2021
本文介绍了 transformers 在 reinforcement learning 中的应用,包括表示学习、转移和奖励函数建模,策略优化等多个方面,并讨论了可视化技术和高效训练策略的应用,以提高 transformers 的解释性和效率。同时,讨论了 transformers 在不同领域的应用以及在 reinforcement learning 中的局限性和潜在突破。
Jul, 2023
本文介绍了一种用于训练多任务策略的可扩展强化学习方法,该方法可以利用人类示范和自主收集的数据。通过使用 Transformer 作为 Q 函数的可扩展表示方法,并应用于离线时间差分备份的训练中,我们称之为 Q-Transformer。通过将每个动作维度离散化并将每个动作维度的 Q 值表示为单独的标记,我们可以应用有效的高容量序列建模技术进行 Q 学习。我们还提出了几个设计决策,使得 Q-Transformer 在离线强化学习训练中表现出良好性能,并且在大型多样的真实世界机器人操纵任务套件上,Q-Transformer 优于先前的离线强化学习算法和模仿学习技术。项目的网站和视频可在此 URL 找到。
Sep, 2023
通过将 Transformer 模块与强化学习相结合,开发了一个基于二次 Transformer 引导的时间逻辑框架(T2TL),以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定,可以将复杂任务分解为可学习的子目标,从而将非马尔可夫奖励决策过程转换为马尔可夫过程,并通过同时学习多个子任务来提高采样效率。
Sep, 2022
本文考虑了一类顺序决策问题的受监督预训练变压器模型,并且提出了一种解决预训练变压器训练及泛化问题的自然方法,该方法通过在训练过程中包含变压器生成的动作序列来提供更好的性能。同时,文章还分析了预训练变压器作为一种算法的特性,解释了其缺乏探索性和如何自动解决此问题,并在数值上将其与结构化算法相比较。
May, 2024
本文介绍了 TrMRL,这是一种运用 Transformer 架构的基于元强化学习的代理(Meta-Reinforcement Learning Algorithm),它结合了最近的工作内存以递归方式构建情境记忆,并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明,在高维连续控制环境下,TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。
Jun, 2022
本文介绍了如何使用序列建模来解决强化学习问题,使用 Transformer 架构来建模轨迹上的分布,并改造了波束搜索作为规划算法,在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性,同时将该方法与基于模型的算法相结合,使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。
Jun, 2021
本文提出了一种基于 Q-learning 的深度强化学习方法 ——Action Q-Transformer (AQT),它引入了一个 Transformer 编码器 - 解码器结构来实现对代理决策的高度可解释性。我们利用 AQT 在 Atari 游戏任务中实现了代理的决策详细分析,并通过实验结果证明了该方法在某些游戏中可以实现比基线更高的性能。
Jun, 2023