BriefGPT.xyz
Ask
alpha
关键词
ranking of response pairs
搜索结果 - 1
AAAI
通过自然语言以人工反馈聚合大规模语言模型数据对齐
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提
→
PDF
7 months ago
Prev
Next