Apr, 2024

处理预期不匹配情况下的奖励误设定

TL;DR使用以 Theory of Mind 为基础的解释性框架 Expectation Alignment (EAL) 来理解目标错配及其原因,并提出了一种基于指定奖励的交互式算法来推断用户对系统行为的期望。