BriefGPT.xyz
Ask
alpha
关键词
contrastive prompt pairs
搜索结果 - 1
直接通过自我奖励对比提示精制的大型语言模型对齐
通过对比提示对生成的偏好数据进行评估,并计算自奖励分数,最终使用 DPO 算法结合此自奖励分数来有效地对齐大型语言模型,实现了不依赖人工标注的偏好数据的 DLMA 方法能够超越 RLHF 方法。
PDF
5 months ago
Prev
Next