Jul, 2024

朝着与文本反馈对齐的语言模型

TL;DR本研究针对语言模型与用户文本反馈对齐的问题,提出了一种新方法ALT,该方法通过用户富有表现力的文本反馈来提高模型对齐的效率与效果。研究表明,ALT在减少毒性方面超越了PPO,并在摘要生成任务中能够以20%的样本量匹配PPO的性能,展示了与自然语言反馈对齐的巨大潜力。