MiMiC: 在表示空间中最小修改的反事实论证

Feb, 2024

MiMiC: Minimally Modified Counterfactuals in the Representation Space

Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan Cotterell...

TL;DR语言模型中的性别偏见和有毒语言等不良行为可以通过干预技术在表示空间中进行干预以减轻问题，本文提出了一种生成表达丰富的反事实干预方法以消除偏见和有毒语言，并在多类分类中显示了其有效性和优于强基准的性能。

Abstract

language models often exhibit undesirable behaviors, such as gender bias or toxic language. Interventions in the representation space were

发现论文，激发创造

通过操作语言模型的表示空间，我们可以将表示空间反事实转化为自然语言的反事实，从而分析与特定表示空间干预对应的语言变化，并解释用于编码特定概念的特征。此外，生成的反事实可用于减轻分类中的偏见。

Feb, 2024

通过在文本表示空间进行干预的简单方法生成对抗事实，以用于分类器解释和偏见缓解。

Feb, 2024

本文解决了生成对抗文本的问题，从而理解和调试分类器，通过优化潜在空间并利用语言模型生成候选修改来绕过离散性文本的优化难题，并使用 Shapley 值估计多个更改的组合效果来确保结果，结果显示潜在空间优化和使用 Shapley 值都显著提高了生成的反事实文本的成功率和质量。

Oct, 2021

通过对不同的大型视觉 - 语言模型（LVLMs）生成的文本进行大规模研究，我们发现输入图像中所描绘的社会属性（如种族、性别和外貌特征），能够显著地影响生成文本的毒性和与能力相关的词汇。

Mar, 2024

利用一个名为 AlterRep 的方法，运用因果分析技术对多语言模型的内部结构进行研究，发现大规模多语言模型中存在着既有语言特定的组件又有语言通用组件，并展示了反事实推理方法在多语言模型上的应用前景。

Oct, 2023

通过对现有的大规模视觉 - 语言模型进行大规模研究，我们发现社会属性，如种族、性别和形象特征，可以显著影响生成的有害内容、能力相关词汇、有害刻板印象和被描述个体的评分，同时也探讨了大规模视觉 - 语言模型和对应的语言模型之间的社会偏见关系和减缓偏见的推理策略。

May, 2024

本文提出了 AlterRep 方法，运用语言特征替换来检测 BERT 模型在处理语法复杂句子时是否符合英语语法规则；研究表明，BERT 模型在处理不同类型的关系从句时，依据相应的英语语法规则进行模拟预测，展示了从抽象的语言类别处理相对从句信息的能力。

May, 2021

提出了一种通过线性极小极大博弈模型来定位和清空文本中的线性子空间，以防止线性预测器恢复与偏见相关的概念，该方法可以减轻内在和外在因素造成的偏见。

Jan, 2022

使用文本到图像扩散模型在规模上生成对抗实例，以探测和缓解视觉 - 语言模型中的交叉社会偏见。

Nov, 2023

本文介绍了一种使用大型语言模型生成对抗样本的方法，该方法克服了现有方法的局限性，能够产生复杂的对抗样本，并在 Civil Comments 数据集上比较了各种方法的性能和价值，并展示了其在评估毒性分类器方面的价值。

Jun, 2022