Jun, 2024

使用奖励预测预训练决策 Transformer 进行上下文多任务结构化赌博学习

TL;DR本文研究多任务结构化赌博问题,目标是学习一个接近最优的算法以最小化累计遗憾。我们使用 Transformer 作为决策算法来学习该共享结构以便泛化到测试任务,并通过利用多样化的训练任务中的观测离线数据预测每个动作的奖励向量,而不需要训练期间对每个任务的最优动作的了解。在推断时,它使用奖励预测并采用各种探索策略在上下文中选择动作。我们的模型在几个结构化赌博问题上(线性、双线性、潜在、非线性)的一系列实验中优于其他 SOTA 方法,例如 DPT 和算法蒸馏。有趣的是,我们展示了即使没有了解潜在问题结构的情况下,我们的算法也能通过利用不同任务之间的共享结构来学习在上下文中的接近最优策略。我们进一步通过展示它们可以利用带有新动作的未见任务并仍然学习潜在结构来获得接近最优策略,从而扩展了预训练决策 Transformer 领域。我们通过几个实验证实了这一点,以展示我们的解决方案非常通用,并且在测试时具有广泛的潜在在线和离线策略应用。最后,我们在上下文多任务学习环境中理论上分析了我们算法的性能并获得了泛化界限。