Oct, 2023

社会契约 AI:将 AI 助理与隐含的团体规范进行一致化

TL;DR模拟框架中,研究通过反转模型来对齐 AI 助手与用户的偏好,并发现 AI 助手在经济最终决策游戏中能够准确对齐行为,但其学习的策略在未包含的情况下缺乏稳健性和普适性,并且发现语言使用与未知策略之间存在不一致时,学习策略的速度会减慢。