BriefGPT.xyz
Ask
alpha
关键词
natural language principles
搜索结果 - 1
RLCD: 强化学习从对比教育中提炼的语言模型对齐
我们提出了一种无需人工反馈的方法,从对比蒸馏中强化学习(RLCD)来使语言模型遵循自然语言规则。RLCD 使用模拟的偏好对来训练一个偏好模型,其中包含通过对比正面和负面提示生成的高质量和低质量例子。然后使用偏好模型通过强化学习来改善基础未对
→
PDF
a year ago
Prev
Next