Oct, 2023

利用语言模型引导人类偏好

TL;DR使用语言模型自身来引导任务规范化的学习框架,通过与用户进行自由形式的、基于语言的交互来提取和推断预期行为,在电子邮件验证、内容推荐和道德推理三个领域的实验中,我们展示了通过生成开放式问题或综合信息临界案例等方式激发语言模型表现的结果通常比用户编写的提示或标签更具信息量,用户反馈认为交互式任务引导所需的工作量较小,并能提供用户一开始未曾预见的新颖考虑。研究结果表明,基于语言模型的任务引导可以成为将模型与复杂人类偏好和价值观相一致的强大工具。