ICLRMar, 2023

随机帧丢失下的决策变换器

TL;DR本文提出了一种名为 “基于随机帧丢失的决策变换器” 的离线强化学习算法,可以使代理在帧丢失场景下稳健地行动,同时不需要在线交互数据,该算法通过随机掩蔽离线数据并显式地添加帧丢失的时间跨度作为输入,使用相同的离线数据集进行微调,可以在严重的帧丢失率下优于强基线,同时在常规的 MuJoCo 控制基准和 Atari 环境中具有相似的回报。该方法提供了一个稳健和可部署的解决方案,以控制在具有有限或不可靠数据的实际环境中的代理。