Aug, 2023

离线强化学习的多目标决策 Transformer

TL;DR离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。