Dec, 2022

关于奖励推断对错误人类模型的敏感性

TL;DR从人类行为推断奖励函数是实现价值对齐的核心,然而需要人类行为的准确模型,我们在理论和实证研究中发现行为可能出现对抗性商业偏差,同时也能够识别出在合理假设下的奖励推断误差线性受人类模型误差影响的影响范围。