Jul, 2024

迭代自我完善中的自发奖励突破

TL;DR使用论文编辑任务,我们展示了迭代自我完善会导致语言模型评估器和人类判断之间的偏差,从而证明奖励欺骗可以在上下文中自发发生。此外,我们研究了奖励欺骗发生的条件,并观察到两个影响奖励欺骗严重性的因素:模型大小和生成器与评估器之间的上下文共享。