自然语言推断的公平泛化任务设定

Nov, 2019

自然语言推断的公平泛化任务设定

Posing Fair Generalization Tasks for Natural Language Inference

Atticus Geiger, Ignacio Cases, Lauri Karttunen, Chris Potts

TL;DR本文提出了一个正式的公平概念，并利用人工数据集来展示标准神经模型在要求的泛化方面表现不佳，只有联合组合前提和假设的任务特定模型能够达到高性能，即使这些模型也不能完美解决任务。

Abstract

deep learning models for semantics are generally evaluated using naturalistic corpora. adversarial methods, in which models are evaluated on new examples with known semantic properties, have begun to reveal that

deep learning adversarial methods fairness natural language inference neural models

发现论文，激发创造

训练公平神经网络的技术挑战

机器学习算法已被广泛应用在各种领域，然而由此带来的公平性问题在高风险案例（如人脸识别和医学影像分析）中引起了极大关注。本文针对深度神经网络中公平性的限制条件及其行为矫正方法的有效性进行了研究，实验结果表明，在特定公平度量下，大型模型会对公平的过度拟合而产生一系列意外和不良后果。

Feb, 2021

自然语言处理中的人类辅助公正分类

本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法，以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对，并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。

Dec, 2022

公平自然语言生成的定义和评估

本文针对自然语言生成任务中出现的偏见展开研究，并提出一个公平性框架加以评估，分析发现现有的语言生成模型存在性别偏见。

Jul, 2020

测试神经网络模型在自然语言推理基准数据集中的泛化能力

研究发现大部分神经网络模型在自然语言推理任务中无法很好地泛化，即使假设相同或相似，基准测试集得分很高的模型也很难在其他基准测试集上表现良好。此外，使用大型预训练语言模型有助于转移学习。当前自然语言推理数据集的涵盖范围不足以覆盖不同推理细节。

Oct, 2018

一种用于 NLI 模型领域泛化的合成数据方法

自然语言推理是语言模型的重要基准任务，在领域泛化上的问题中，我们通过生成多样化的合成 NLI 数据，使得模型在全新的下游测试环境中具有最佳的泛化性能。

Feb, 2024

伪新闻检测模型的对抗性基准测试

本文提出了一个对抗性基准测试，旨在测试虚假新闻检测器推理现实世界事实的能力，使用 BERT 分类器 fine-tuned 在 LIAR arXiv:arch-ive/1705648 和 Kaggle Fake-News 数据集上，结果显示这两种模型在处理组合语义、词汇关系和修饰符等方面的意思变化上存在失败的情况。这表明虚假新闻检测器需要与其他事实检查方法一起使用。

Jan, 2022

SemEval-2020 任务 4 上 CS-NLP 团队对常识推理任务中最先进的自然语言处理深度学习架构的评估

本文介绍了 SemEval-2020 任务 4：Commonsense Validation and Explanation（ComVE）挑战中的常识推理任务，探讨了几种针对该任务的深度学习方法，并使用多选题式的分类方法来提高模型准确率。研究结果表明，我们的模型在三个子任务中表现良好，并在第二个子任务中获得了很高的排名。同时，我们使用了一种强大的生成模型进行了最后一个子任务的研究，现在还有许多相关的潜在研究方向。

May, 2020

在深假检测中保持公平性泛化

通过同时考虑特征、损失和优化方面，我们提出了第一个在深度假像检测中解决公平性泛化问题的方法，采用解缠学习提取人口统计和领域无关的伪造特征，并将它们融合在一起，以在交叉领域的深度假像检测中鼓励公平学习。在知名深度假像数据集上进行的广泛实验证明了我们方法在保持公平性方面的有效性，超过了现有技术水平。

Feb, 2024

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020

使用多重量化语句进行自然语言推理神经模型的压力测试

本文提出了一种生成数据集的方法，用于生成特定的自然语言推理例子，从而更精确地表征语义复杂性，并指出仅强制词汇对齐的模型可以避免关键信息的损失。

Oct, 2018