使用奖励预测预训练决策 Transformer 进行上下文多任务结构化赌博学习

Jun, 2024

使用奖励预测预训练决策 Transformer 进行上下文多任务结构化赌博学习

Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning

Subhojyoti Mukherjee, Josiah P. Hanna, Qiaomin Xie, Robert Nowak

TL;DR本文研究多任务结构化赌博问题，目标是学习一个接近最优的算法以最小化累计遗憾。我们使用 Transformer 作为决策算法来学习该共享结构以便泛化到测试任务，并通过利用多样化的训练任务中的观测离线数据预测每个动作的奖励向量，而不需要训练期间对每个任务的最优动作的了解。在推断时，它使用奖励预测并采用各种探索策略在上下文中选择动作。我们的模型在几个结构化赌博问题上（线性、双线性、潜在、非线性）的一系列实验中优于其他 SOTA 方法，例如 DPT 和算法蒸馏。有趣的是，我们展示了即使没有了解潜在问题结构的情况下，我们的算法也能通过利用不同任务之间的共享结构来学习在上下文中的接近最优策略。我们进一步通过展示它们可以利用带有新动作的未见任务并仍然学习潜在结构来获得接近最优策略，从而扩展了预训练决策 Transformer 领域。我们通过几个实验证实了这一点，以展示我们的解决方案非常通用，并且在测试时具有广泛的潜在在线和离线策略应用。最后，我们在上下文多任务学习环境中理论上分析了我们算法的性能并获得了泛化界限。

Abstract

In this paper, we study multi-task structured bandit problem where the goal is to learn a near-optimal algorithm that minimizes cumulative regret. The tasks share a common structure and the algorithm exploits the

multi-task structured bandit problem transformer cumulative regret pretrained decision transformers in-context multi-task learning

发现论文，激发创造

监督预训练可学习上下文强化学习

在这篇论文中，我们通过引入和研究 Decision-Pretrained Transformer（DPT）并展示它在上下文感知机器人决策中的运用，证明了大型变形机模型在多个数据集上的上下文学习能力，同时实现了对决策问题的研究及基于贝叶斯后验采样的跨任务性能。

Jun, 2023

理解预训练变压器在序贯决策中的训练和泛化

本文考虑了一类顺序决策问题的受监督预训练变压器模型，并且提出了一种解决预训练变压器训练及泛化问题的自然方法，该方法通过在训练过程中包含变压器生成的动作序列来提供更好的性能。同时，文章还分析了预训练变压器作为一种算法的特性，解释了其缺乏探索性和如何自动解决此问题，并在数值上将其与结构化算法相比较。

May, 2024

应对新的顺序决策任务的泛化学习

使用离线数据集，通过训练大型多样化模型，能够在只有少量示范数据的情况下，使自主代理器在新的任务上进行上下文学习。

Dec, 2023

基于监督预训练的证明上下文强化学习中的变压器决策者

该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型，提出了两种训练方法并证明了其能近似实现专家算法，同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法，这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。

Oct, 2023

面向未来条件的无监督预训练：决策 Transformer

本文提出了一种基于未来信息进行无监督强化学习预训练的概念简单的方法 ——Pretrained Decision Transformer（PDT），并探究了如何在处理次优数据时提升其性能。实验证明，PDT 在离线数据中提取多样化的行为，且可通过在线微调控制采样高回报的行为。

May, 2023

上下文决策变换器：通过分层思维链强化学习

提出了一种高层次的基于试错的方法，通过在环境中提供任务提示来实现离线强化学习的上下文学习，可以更高效地解决在线任务，并在长期任务中取得了最先进的结果。

May, 2024

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023

小样本策略概括的决策 Transformer

人类可以利用以往的经验从少量的演示中学习新的任务。我们提出了一种基于 Prompt-DT 的模型，它借助 Transformer 架构的序列建模能力和 prompt 框架，在离线 RL 中实现了少量样本的适应性。我们的实验表明，Prompt-DT 是一种强大的少量样本学习器，可以在目标任务上进行良好的泛化。

Jun, 2022

神经序列到序列学习的赌博式结构化预测

该研究提出利用递归神经网络中的注意力机制将线性 bandit 学习推广到神经序列到序列学习问题中，并介绍如何将控制变量结合到学习算法中以实现方差缩减和改进推广，通过对神经机器翻译任务的评估，表明通过领域适应和模拟 bandit 反馈可实现高达 5.89 BLEU 点的改进。

Apr, 2017