基于 Transformer 的袋装奖励增强学习：面向实例级奖励重新分配的方法

Feb, 2024

基于 Transformer 的袋装奖励增强学习：面向实例级奖励重新分配的方法

Reinforcement Learning from Bagged Reward: A Transformer-based Approach for Instance-Level Reward Redistribution

Yuting Tang, Xin-Qiang Cai, Yao-Xiang Ding, Qiyu Wu, Guoqing Liu...

TL;DR提出了一种称为 RLBR（Reinforcement Learning from Bagged Rewards）的新型 RL 设置，使用基于 Transformer 的奖励模型（Reward Bag Transformer）来探索袋装奖励中的奖励分布，并展示了其在上下文理解和环境动态适应性方面的卓越性能。

Abstract

In reinforcement learning (RL), an instant reward signal is generated for each action of the agent, such that the agent learns to maximize the cumulative reward to obtain the optimal policy. However, in many real-world applications, the instant reward signals are not obtainable by the

reinforcement learning reward model bagged rewards transformer-based contextual understanding

发现论文，激发创造

变形金刚是元强化学习算法

本文介绍了 TrMRL，这是一种运用 Transformer 架构的基于元强化学习的代理（Meta-Reinforcement Learning Algorithm），它结合了最近的工作内存以递归方式构建情境记忆，并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明，在高维连续控制环境下，TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。

Jun, 2022

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

离线强化学习问题的序列建模方法

本文介绍了如何使用序列建模来解决强化学习问题，使用 Transformer 架构来建模轨迹上的分布，并改造了波束搜索作为规划算法，在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性，同时将该方法与基于模型的算法相结合，使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。

Jun, 2021

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

基于能量模型的奖励条件下贝叶斯重新参数化增强学习

提出了一种名为 Bayesian Reparameterized RCRL（BR-RCRL）的奖励条件强化学习新方法，它通过消除强化学习在高奖励输入下的独立性偏见和处理预测行为射线分布的问题，取得了比传统方法高出 11% 的性能在 Gym-Mujoco 和 Atari 离线 RL 基准中.

May, 2023

离线强化学习中的引导式 Transformer

本文提出了一种名为 Bootstrapped Transformer 的新算法，将 bootstrapping 思想和模型自我生成更多离线数据相结合，进一步提高序列模型训练的效果，该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果，并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。

Jun, 2022

可解释的多实例学习实现基于轨迹标签的非马尔可夫奖励建模

本文中，我们将奖励建模应用于处理非马尔可夫奖励的强化学习问题，我们在此基础上移除了现有工作假设的独立反馈观察前提，并扩展了奖励建模以捕捉人类对轨迹的时间依赖关系。我们将其作为多实例学习（MIL）问题，通过将轨迹视为带有返回标签的包，将轨迹中的步骤视为具有未见过奖励标签的实例。我们还开发了新的多实例学习模型，能够捕捉标记轨迹中的时间依赖关系，并在一系列强化学习任务中展示了我们的新模型能够将奖励函数重建到高精度，并能用于训练高性能代理策略。

May, 2022

自适应掩码的保持决策转换器用于基于强化学习的推荐系统

通过采用自适应遮蔽配置进行序列决策建模，以及引入多尺度分段保留机制以提高计算效率，我们提出了一种新的离线强化学习推荐系统方法，该方法在在线模拟器和离线数据集上的实验分析中明显展示了其优势。

Mar, 2024

深度强化学习中奖励机制抽象的上下文预规划，以增强迁移能力

为解决深度强化学习代理在任务转移中的过度拟合问题和对现实环境的适应性差的问题，提出一种基于奖励机器的任务表示方法，使用抽象状态图与任务奖励动态的相互作用诱导子任务，从而实现在不同任务间的知识共享和过程优化的目标。经实验测试表明，该方法在各个领域中提高了样本效率和少量训练次数下的转移性能。

Jul, 2023

强化学习中基于人类反馈的免费密集奖励

从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展，通过使用注意力权重重新分配奖励以高亮最重要的标记，它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。

Feb, 2024