Nov, 2023

因果 ATE 减轻有控制的文本生成中的无意偏差

TL;DR通过因果平均处理效应(因果 ATE)方法,研究语言模型中的属性控制。除去数据集中属性的虚假相关性,该方法减少了模型在推理过程中因对虚假相关变量的干扰而产生属性幻觉,并在分类任务中降低了误判的数量,从而解决了去毒化后对特定群体出现的无意识偏见问题。