识别语义困难样本以提高文本分类能力

Feb, 2023

识别语义困难样本以提高文本分类能力

Identifying Semantically Difficult Samples to Improve Text Classification

Shashank Mujumdar, Stuti Mehta, Hima Patel, Suman Mitra

TL;DR本文探讨在给定文本数据集中如何处理难以分类的样本对于下游文本分类任务的影响，并通过语义嵌入空间分析将难度样本定义为在文本分类中不明显的情况，通过提出惩罚函数来获得每个样本的难度得分，并在 13 个标准数据集上进行全面的实验，得出了最多 9％的一致性提升，并讨论了定量结果，以展示我们的方法在识别文本分类模型难度样本方面的有效性。

Abstract

In this paper, we investigate the effect of addressing difficult samples from a given text dataset on the downstream text classification task. We define →

text classification difficult samples semantic embedding penalty function standard datasets

发现论文，激发创造

遗传数据测量：理解文本分类任务的难度

通过对 78 个现实世界数据集的训练与分析，本研究提出了一种简单易行的衡量文本分类数据集难度的方法，并且此方法适用于不同类型的数据集，可以用于提高模型的性能。

Nov, 2018

硬度样本需量化以建立可靠的评估系统：探索新任务的潜在机会

通过给基准数据集中的未注释样本打分，我们提出了一种模型评估方法，用语义文本相似性评估该任务的基于难度的分数，比单纯的评估模型性能更准确，可以避免潜在的偏差以及更广泛的应用。

Oct, 2022

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

如何为文本数据增广选择 “好” 的样本

本文提出了一种基于数据增强的自训练样本选择框架，使用熵和模型预测作为选择器，结合单词重叠和语义相似性来筛选高质量的样本。实验结果表明该框架是有效和简单的。

Feb, 2023

针对样本特定的去偏方法以获得更优秀的图文模型

本文介绍了一种基于样本特定偏差校正的自监督学习方法，用于改善不均匀假负面样本导致的图像文本数据的质量问题。经过实验证明，此方法在包括医学应用在内的多种数据集上都取得了比传统方法更好的效果。

Apr, 2023

硬件感知深度级联嵌入

本篇论文提出了一种基于深度验证网络和模型集成的图像分类方法，通过自适应筛选样本并训练带有不同复杂度的模型，解决了大样本分类中的难例挖掘问题，相较于现有方法，该方法在多个数据集上有着更高的分类准确率。

Nov, 2016

文本分类中识别、检测和区分超出分布样本和对抗样本

对比分析了文本分类模型中常见的三种输入样本：分布内、分布外和对抗样本，并提出一种基于模型隐藏表示和输出概率的简单方法，有效地区分了这三种输入样本。

Apr, 2022

硬标记样本与噪声标记样本的差异：实证研究

通过设计合成数据集和系统实证研究，本文提出了一个简单而有效的度量指标，用于过滤出有噪声的标签样本，同时保留难学习的样本。研究发现，在半监督学习框架下，我们提出的数据划分方法明显优于其他方法。

Jul, 2023

文本对抗样本的生成

本文提出一种基于文本样本的对抗样本生成算法，通过删除、替换或添加一些关键词来修改原始的文本样本，解决了检测对抗样本的难题，并且通过在 IMDB 电影评论数据集进行实验，证明了本文所提出的方法的有效性。

Jul, 2017

通过考察测试集难度理解深度学习性能：一项心理测量案例研究

研究了深度学习模型性能评估中忽略的数据点特征和难度对测试集准确性的影响，通过用已有的心理测量学方法对人类的反应模式进行建模来估计难度，实验结果发现难度对于测试的结果有重要影响，同时易于学习的实例被模型学得更快。

Feb, 2017