BriefGPT.xyz
Ask
alpha
关键词
implicit preference
搜索结果 - 1
利用人类反馈提升开放领域聊天机器人
本文提出了一种新颖高效的方法 Diamante 通过收集并利用两种人类反馈(包括显式示范和隐含偏好)来增强开放域聊天机器人,并介绍使用的生成 - 评估联合训练来增强与人类偏好的对齐,综合实验表明 Diamante 数据集和联合训练模式可以显
→
PDF
2 years ago
Prev
Next