May, 2024
通过多透视用户偏好排名反馈对齐 LLMs 的编程问题回答
Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering
Hongyu Yang, Liyang He, Min Hou, Shuanghong Shen, Rui Li...
TL;DR利用人类反馈强化学习从大型语言模型出发,以解决编码社区问答中多个答案和用户偏好差异的问题,提出了一种名为 ALMupQA 的框架,通过多角度用户偏好排序反馈来生成面向用户的答案。实验证明,ALMupQA 相比基础模型在 BLEU 指标上提升了近 11%,BERTScore 和 CodeBERTScore 分别提高了 20% 和 17.5%。