BriefGPT.xyz
大模型
Ask
alpha
关键词
undesirable content
搜索结果 - 3
对比困惑度与受控生成:在去毒化大型语言模型中的应用
研究通过对大型语言模型进行对比学习目标的整合,以实现隐式知识编辑和受控文本生成,从而解决生成不受欢迎和事实不正确的内容的问题。该方法在自毁训练方式的基础上,通过利用现成的语言模型进行数据生成,成功降低了生成有毒内容的频率,并在通用任务(如常
→
PDF
6 months ago
有条件生成模型的数据遮蔽
本文研究了如何在已经训练好的条件生成模型上进行后编辑,以消除某些条件性,从而以较高的概率消除不良内容,这是通过提取模型中的条件网络实现的,该方法在保持高生成质量的同时,计算轻便,用于深度生成模型的类别具有普适性、高效性和可控性,实验结果表明
→
PDF
a year ago
使用人类偏好进行语言模型预训练
通过在预训练中引入人类的反馈,实现对于语言模型的生成文本的可控和可导向性,减少哪些偏离人类喜好的内容的生成,并且在标准的预训练和任务特定的微调中保持下游任务表现。推荐在训练开始时,就结合人类反馈,不再使用模仿学习的方式预训练语言模型。
PDF
a year ago
Prev
Next