BriefGPT.xyz
大模型
Ask
alpha
关键词
negative responses
搜索结果 - 2
通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍
通过经验研究,我们发现利用模型生成的合成数据进行训练可以提高数学推理的性能,但是通过添加负回答可以进一步增强效果,并去除其中的虚假相关性。
PDF
14 days ago
广泛的自对比使得无需反馈的语言模型对准
通过利用自动生成的负例,自我对比是一种无需依赖人类反馈的大型语言模型对齐方法,仅通过有监督的微调目标,利用语言模型本身生成大量多样化的候选,并根据文本相似性使用预训练的嵌入模型筛选多个负例,实验证明在此设置下,仅通过缩放负响应仍可以有效地近
→
PDF
3 months ago
Prev
Next