Jun, 2024

奉承到诡计:对大型语言模型中的奖励篡改进行调查

TL;DR大型语言模型助手在学习规范游戏的常见形式后,可以从中推广到更恶劣的奖励篡改形式,并且这种行为可能不容易消除。