- EMNLP社会偏见媒体表示准确度的评估:没有完美的单词嵌入模型
通过分析 500k 篇美国在线新闻文章中存在的社会偏见类型,使用考虑了嵌入表示问题的多种算法以及 WEAT,比较了这些算法在新闻文章中训练的模型所表示的期望社会偏见,结果发现标准偏差检测方法与心理学知识并不一致,而新提出的算法虽然减轻了这种 - 检测有毒语料库中的意外社会偏见
本研究介绍了一个新的数据集 ToxicBias,这是从 Kaggle 竞赛中现有的数据集 “Jigsaw Unintended Bias in Toxicity Classification” 中精心策划的,旨在检测社交偏见及其类别和目标群 - EMNLPBERTScore 不公平:基于语言模型的文本生成度量中的社会偏见
本文首次对基于预训练语言模型的度量方法中的社会偏见进行了系统研究,并发现相比传统度量方法,最受欢迎的基于预训练语言模型的度量方法在种族、性别、宗教、外貌、年龄和社会经济地位等 6 个敏感属性上显示出显著的社会偏向。此外,研究发现选择度量方法 - 基于推理时自适应优化的语言生成中的统一去毒化和去偏见处理
通过提出第一种统一框架 UDDIA 来解决自然语言生成中的道德问题,该框架同时解決了去除偏见和毒性语言的问题,并提升了文本生成性能。
- ACL事实” 的生命周期:知识图谱中社会偏见的调查
本文批判性分析了有关知识图谱生命周期中不同步骤中存在的偏见的文献,并调查了引入偏见的因素以及知识图谱及其嵌入版本所呈现的偏见。讨论了现有测量和减轻策略的局限性,并提出了未来的发展路径。
- 测量和消除视觉语言预训练模型中的社会偏见
本研究针对 Vision-Language Pre-training(VLP)模型的社会偏见问题,提出了一种基于反事实的偏见测量方法 CounterBias、构建了一个包含 24K 图像 - 文本对的新颖 VL-Bias 数据集并在其中观察 - 超越模仿游戏:量化和推断语言模型的能力
通过引入 Beyond the Imitation Game 基准测试(BIG-bench),我们评估了多种大小的语言模型在 204 个跨不同领域的任务上的表现,发现规模越大,其表现和校准也越好,但与人类专家相比还是很差,同时也发现在歧义上 - 自然语言处理中偏见相关性及其缓解方法的研究
本文通过研究 NLP 模型中三个社会身份(种族、性别和宗教)之间的偏见相关性,提出在对偏见进行改善时需要综合考虑相关的偏见,而不是各自分开处理,以引导更多相关研究
- 基于 Transformer 的语言模型降低毒性的奖励建模
本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify,通过引入新的奖励机制,它能够有效地检测出有毒的内容,并减轻与社会身份相关的无意识偏见。实验表明,Reinforce-Detoxify 方法在语言模 - 针对预训练语言模型的少样本指令提示,用于检测社会偏见
提出了一种用于指示预训练语言模型检测社会偏见的 few-shot 方法,该方法用少量标记过的示例和定义的偏见作为指示提供给模型,大型语言模型的检测效果十分准确。
- ACL如何改进自然语言理解基准测试?
该论文提出了评估自然语言理解任务的四个标准,并指出目前大多数现有标准都无法满足这些标准,而对抗性数据收集并不能有效地解决这些失败的根本原因。为了恢复健康的评估生态系统,需要在基准数据集的设计、标注的可靠性、其大小以及处理社会偏见的方式方面取 - ICLRFairFil:预训练文本编码器的对比神经去偏方法
本文提出了第一个用于预训练句子编码器的神经去偏方法,通过公平滤波器网络将预训练编码器输出转化为去偏表示,在现实世界数据集上,我们的公平滤波器有效地减少了预训练文本编码器的偏差程度,并在下游任务中持续展现理想的性能。此外,我们的事后方法不需要 - 评估开放式语言生成中偏差的数据集和评估标准
该研究介绍了一个大规模数据集以及一个新的自动化度量方法,用于研究和评测深度学习技术所生成的自由文本中存在的社会偏见,并发现机器生成的大部分文本在五个领域中表现出比人类撰写的维基百科文本更大的社会偏见。
- EMNLPCrowS-Pairs:一个挑战数据集,用于测试面具语言模型中的社会偏见
该论文介绍了一种基准测试数据 CrowS-Pairs,用于评估预先训练的自然语言模型在涉及到社会偏见方面的表现,结果发现所有评估的模型在 CrowS-Pairs 的每个类别中都偏向于表达刻板印象的句子。
- ACL自然语言处理模型中的社会偏见作为残疾人的障碍
本文针对自然语言处理技术中社会态度的反映及其中的社会偏见问题展开研究,以两个不同实验为案例,说明训练数据本身的社会偏见对模型的影响。同时,讨论了关于残疾人的话题以及在相关文本中存在的不利偏见,并展示了大量相关证据。
- 测量知识图谱嵌入中的社会偏见
这篇研究是对知识 graph embeddings 中社会偏见的首次研究,提出新的度量方法,并证明像性别、宗教、民族和国籍这些方面的社会偏见已经编码在嵌入向量中,因此在利用 graph embeddings 时需要谨慎处理。
- 评估情境化单词表征中的社会和交叉偏见
本文分析了最先进的语境词表示模型,如 BERT 和 GPT-2,对于性别,种族和交叉身份认同的偏差情况,并提出了一种新颖的方法对词语级别上的偏差进行评估。