May, 2024

通过多透视用户偏好排名反馈对齐 LLMs 的编程问题回答

TL;DR利用人类反馈强化学习从大型语言模型出发,以解决编码社区问答中多个答案和用户偏好差异的问题,提出了一种名为 ALMupQA 的框架,通过多角度用户偏好排序反馈来生成面向用户的答案。实验证明,ALMupQA 相比基础模型在 BLEU 指标上提升了近 11%,BERTScore 和 CodeBERTScore 分别提高了 20% 和 17.5%。