Feb, 2023

离线安全强化学习的约束决策 Transformer

TL;DR该论文研究了如何从离线数据集中学习到一个安全政策,提出了一种多目标优化的方法,并通过 “ε- 可减” 向量量化了问题难度,发现在安全性和任务性能之间存在平衡,于是提出了一种 “受限决策 Transformer” 方法并进行了实验,结果表明我们的方法比其他方法在各种任务中都表现出更好更安全和更高的效益。