人机协同调试深度文本分类器

EMNLPOct, 2020

FIND: Human-in-the-Loop Debugging Deep Text Classifiers

Piyawat Lertvittayakumjorn, Lucia Specia, Francesca Toni

TL;DR提出了一个名为 FIND 的框架，使其能通过禁用无关的隐藏特征来调试在不同类型的不完美数据集下训练的 CNN 文本分类器，从而改进文本分类器。

Abstract

Since obtaining a perfect training dataset (i.e., a dataset which is considerably large, unbiased, and well-representative of unseen cases) is hardly possible, many real-world text classifiers are trained on the

text classifiers training dataset cnn debugging find

发现论文，激发创造

模型何时以及为何失败？用于情感分析的人机交互型错误检测框架

本论文提出一种基于可解释特征的情感分析错误检测框架，通过人为干预的全局特征验证和全局与局部特征贡献分析，该方法能在高精度的情况下识别未知数据上的错误模型预测。

Jun, 2021

人类不确定性使分类更加健壮

本文通过训练具有反映人类知觉不确定性的完整标签分布来解决深度神经网络在泛化和鲁棒性方面存在的问题，并呈现了一个新的基准数据集 CIFAR10H。实验结果表明，基于该数据集的显式训练可以实现深度学习分类器具有人类的不确定性，并提高模型泛化性和抵御对抗攻击能力。

Aug, 2019

自然语言处理中的人类辅助公正分类

本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法，以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对，并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。

Dec, 2022

作者至关重要：理解和减轻深度文本分类中的隐性偏见

本文研究探究深度文本分类模型中的显式和隐式偏差，并提出了一种 Debiased-TC 框架来缓解隐式偏差并提高模型的公平性及分类性能。

May, 2021

卷积神经网络和深度神经网络的组合在假新闻检测中的应用

本文介绍了 Fake News Challenge stage #1 (FNC-1) 数据集并概述了使用该数据集构建伪新闻检测系统的竞争尝试。通过使用不同的自然语言处理技术处理标题和正文文本，提取特征并使用软余弦相似性方法计算相似度。该系统使用深度学习方法进行分类，除了 “disagree” 类别外，其余类别均达到高准确性，最终分类准确率达到 84.6％，在该数据集上排名第二。

Oct, 2022

避免以下主题：降低文本分类中的潜在混杂因素影响

本文提出了一种使用对抗性训练的方法，通过同时预测文本的标签和混淆因素，逐步地学习对话题无关的文本表示，以提高神经网络模型在母语识别任务中的泛化性能。

Sep, 2019

DataFinder：从自然语言描述中推荐科学数据集

介绍了一种新的数据集推荐系统，该系统能够根据研究想法的简短自然语言描述，推荐相关的数据集。该系统通过使用机器学习技术创建了 “DataFinder 数据集”，并比较了各种信息检索算法在其测试集上的效果，同时还发布了数据集和模型以促进数据集推荐的进展。

May, 2023

探究文本分类器的工作

通过使用一些新的文本分类方法，我们研究了模型是否真正学习了组合句子的意义，或者仅仅关注一些关键词或词典。我们的结果表明，许多模型仍然只是关注词汇和关键词，因此我们提出了新的正则化技术来防止这种过拟合，并在实验中得到了良好的结果。

Jan, 2018

深度文本分类器中后门的检测

本研究介绍一种新的深度学习技术，可用于抵御针对文本分类模型的后门攻击，能够无需访问攻击类型和训练资源的情况下自我防御并具有高准确性。

Oct, 2022

利用模拟来识别人工智能中的偏见

通过高保真计算机模拟和贝叶斯参数搜索，诊断机器学习模型中的偏倚问题，特别是面部识别商业 API 中的人口统计学偏见。

Sep, 2018