文本分类中的逆因果多令牌公平性
本文介绍了一种使用大型语言模型生成对抗样本的方法,该方法克服了现有方法的局限性,能够产生复杂的对抗样本,并在 Civil Comments 数据集上比较了各种方法的性能和价值,并展示了其在评估毒性分类器方面的价值。
Jun, 2022
本文研究文本分类中的反事实公平性问题,提出了一种度量特定公平性形式 —— 反事实令牌公平性 (CTF) 的度量准则,利用三种方法 —— 盲化、反事实增强和反事实逻辑配对 (CL) 解决训练中的反事实令牌公平性优化问题,这些方法不会影响分类器性能,并且在小组公平性方面具有变化,为解决文本分类中的公平性问题提供了新的途径。
Sep, 2018
本文提出了一种两步数据增强过程,第一步是使用词嵌入方法准备身份对的全面列表,第二步是利用身份对列表通过三种简单的操作(即身份对替换、身份项盲目替换和身份对交换)增强训练实例,实验结果表明,这个增强过程可以产生多样化的身份对,并提高了基于令牌的反事实公平度量得分,适用于两个文本分类任务。
Feb, 2022
本文旨在量化并减少语言模型中表现出的情感偏见,该文分析了在给定的条件下(例如写作提示)和语言模型中,引起生成的文本情感发生变化的敏感属性(例如国家名称,职业,性别)的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见,并证明在两种不同的语料库(新闻文章和维基百科)上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法,该方法应用于语言模型的潜在表示。该正则化提高了公正度量,同时保持了可比水平的困惑度和语义相似性。
Nov, 2019
本文研究个性化文本生成中的公平性问题,提出了一个可适用于现有模型和实际场景的通用框架,以促进文本的公平性,消除因用户属性造成的偏见。
Oct, 2022
本文提出了 NeuroCounterfactuals 方法,通过松散的对比事实产生更大规模的编辑,从而使得生成的文本包含语言多样性,同时与原始文档相似,使得训练数据增强在情感分类方面取得了良好的效果。
Oct, 2022
通过使用反事实生成方法以及可解释性人工智能(XAI)领域的方法来目标化和缓解文本毒性,我们提出了一种文本解毒方法,该方法能够在去除有害含义的同时保留初始非毒性含义,并且对三个数据集进行比较实证研究和评估结果表明,最近发展的 NLP 反事实生成器比传统解毒方法更准确地缓解了毒性,并更好地保留了初始文本的含义。此外,我们还深入讨论了自动化解毒工具的多义性和恶意使用风险管理的问题,这项工作是首次将反事实生成与文本解毒结合起来,为 XAI 方法的更实际应用铺平了道路。
May, 2024
针对文本分类任务中的模型过度依赖模式数据的问题,本文提出了一种新的解决方案,使用编码向量空间的自动生成机制减少新数据生成的人工成本,只需对原始训练数据的一小部分(例如 1%)进行注释即可获得明显的准确性改进。实验证明,该方法对情感分类有效,并在使用 IMDb 数据进行训练和 Amazon、SemEval 和 Yelp 等其他数据集进行 OOD 测试时,仅添加 1%手动反事实数据即可获得 + 3%的准确性提升,相比于添加 100%的训练样本和其他反事实方法比较,准确性提高了 1.3%。
Oct, 2022