Sep, 2022

测量强化学习中的干预鲁棒性

TL;DR本文提出了干预鲁棒性的概念,并开发了一种可量化的方法来测量它。通过对八个算法和三种 Atari 环境下的干预和状态进行计算,发现干预鲁棒性因算法类型和训练次数而异,高性能不一定意味着高干预鲁棒性。