Jun, 2023

通过令牌级属性控制生成实现因果公平的语言模型

TL;DR使用因果平均处理效应(ATE)分数和反事实增强作为文本生成任务语言模型(LMs)属性控制的方法,我们提出了因果公平语言(CFL)架构,以插入并播放的方式解毒预训练LMs。我们的实验表明,CFL实现了这种解毒而不会对模型困惑度产生太大影响,并通过对BOLD数据集的实验表明,CFL可以缓解意外偏见问题。