AAAINov, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

TL;DR通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。