BriefGPT.xyz
Ask
alpha
关键词
toxic text generation
搜索结果 - 2
细粒度人类反馈为语言模型训练提供更好的奖励
本文介绍了 Fine-Grained RLHF 框架,可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练,并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。
PDF
a year ago
ACL
通过令牌级属性控制生成实现因果公平的语言模型
使用因果平均处理效应(ATE)分数和反事实增强作为文本生成任务语言模型(LMs)属性控制的方法,我们提出了因果公平语言(CFL)架构,以插入并播放的方式解毒预训练 LMs。我们的实验表明,CFL 实现了这种解毒而不会对模型困惑度产生太大影响
→
PDF
a year ago
Prev
Next