BriefGPT.xyz
Jul, 2024
朝着与文本反馈对齐的语言模型
Towards Aligning Language Models with Textual Feedback
HTML
PDF
Saüc Abadal Lloret, Shehzaad Dhuliawala, Keerthiram Murugesan, Mrinmaya Sachan
TL;DR
本研究针对语言模型与用户文本反馈对齐的问题,提出了一种新方法ALT,该方法通过用户富有表现力的文本反馈来提高模型对齐的效率与效果。研究表明,ALT在减少毒性方面超越了PPO,并在摘要生成任务中能够以20%的样本量匹配PPO的性能,展示了与自然语言反馈对齐的巨大潜力。
Abstract
We present ALT (
Alignment
with
Textual Feedback
), an approach that aligns
Language Models
with user preferences expressed in text. We argu
→