BriefGPT.xyz
Ask
alpha
关键词
multi-perspective user preference ranking-based feedback
搜索结果 - 1
通过多透视用户偏好排名反馈对齐 LLMs 的编程问题回答
利用人类反馈强化学习从大型语言模型出发,以解决编码社区问答中多个答案和用户偏好差异的问题,提出了一种名为 ALMupQA 的框架,通过多角度用户偏好排序反馈来生成面向用户的答案。实验证明,ALMupQA 相比基础模型在 BLEU 指标上提升
→
PDF
a month ago
Prev
Next