Jun, 2024

用于通用现实世界驾驶的高效模仿多令牌决策Transformer

TL;DR使用序列建模进行的强化学习在自主系统中显示出巨大的潜力,利用离线数据集来在模拟环境中做出明智的决策。然而,在复杂的动态环境中,此类方法的全部潜力尚待发现。为了解决这些问题,我们提出了一种名为 Sample-efficient Imitative Multi-token Decision Transformer (SimDT) 的样本高效的模仿式多令牌决策Transformer,通过实证实验进行性能评估,并在 Waymax 基准测试上超过了流行的模仿和强化学习算法。