Mar, 2024

通过占用度量规范化防止奖励攻击

TL;DR奖励破解是指代理根据「代理」奖励函数(可以是手动指定或学习得到的函数)表现出色,但在未知真实奖励方面表现差。我们提出根据状态占据度测量建立正则化模型,以代替行动分布来避免奖励破解,并进行理论和实证研究验证。