Nov, 2023

通用化类比:向难以衡量的领域推广人工智能监管的测试平台

TL;DRAI 系统越来越智能化,为了避免滥用人类反馈而学习追求遵循指示,研究通过控制 LLMs 对不可靠情况中的人类反馈进行泛化来减轻风险;采用 69 种不同领域的分布变化,发现奖励模型默认不会学习评估 “遵循指令”,而更偏好与互联网文本相似的人设;与标准微调相比,通过解读奖励模型的内部表示来实现更好的泛化效果,但仍然经常无法区分 “遵循指令” 和混淆行为;整合了 15 个最具挑战性的分布变化形成 GENIES 基准,旨在推动对奖励模型泛化能力的控制的进展。