Jul, 2024

鲁棒决策变换器:通过序列建模解决离线强化学习中的数据损坏

TL;DR从离线数据集中学习策略通过离线强化学习 (RL) 在扩展数据驱动的决策和避免不安全和昂贵的在线交互方面具有潜力。然而,传感器或人类收集的现实世界数据往往包含噪声和错误,这给现有的离线 RL 方法带来了重大挑战。本研究表明,在数据损坏的情况下,基于时序差分学习的传统离线 RL 方法往往表现不佳,尤其是在数据量有限的情况下。这表明序列建模在解决离线 RL 数据损坏方面具有潜力。为了进一步发挥序列建模方法的潜力,我们提出了鲁棒决策 Transformer (RDT),并结合了几种鲁棒技术。具体而言,我们引入了高斯加权学习和迭代数据校正来减小数据损坏的影响。此外,我们利用嵌入丢弃增强模型对错误输入的抵抗力。在 MoJoCo、KitChen 和 Adroit 任务上的大量实验证明 RDT 在各种数据损坏情况下相比先前的方法具有更好的性能。此外,在将训练时数据损坏与测试时观察扰动相结合的具有挑战性的设置中,RDT 表现出了卓越的鲁棒性。这些结果凸显了鲁棒序列建模在从嘈杂或损坏的离线数据集中学习方面的潜力,从而促进了离线 RL 在实际任务中的可靠应用。