BriefGPT.xyz
Ask
alpha
关键词
self-critique prompting
搜索结果 - 2
ICLR
通过合成数据对 LMLs 进行行为对齐的优化提炼直接偏好优化
提出一种称为 “rDPO” 的方法,通过自我批评引导创建合成数据,并利用广义的 DPO 损失函数蒸馏为学生 LLM,其中使用额外的外部奖励模型提高合成数据质量,从而改善大型语言模型的行为对齐。
PDF
5 months ago
利用大型语言模型的自我批判提示用于归纳教学
本文提出了一种名为 INDust(Inductive Instructions)的挑战基准来评估大型语言模型(LLMs)是否能够抵抗用户提供的带误导性的指令,并提出了一种名为 Self-Critique prompting 的方法来防范 L
→
PDF
a year ago
Prev
Next