Feb, 2023

识别语义困难样本以提高文本分类能力

TL;DR本文探讨在给定文本数据集中如何处理难以分类的样本对于下游文本分类任务的影响,并通过语义嵌入空间分析将难度样本定义为在文本分类中不明显的情况,通过提出惩罚函数来获得每个样本的难度得分,并在 13 个标准数据集上进行全面的实验,得出了最多 9%的一致性提升,并讨论了定量结果,以展示我们的方法在识别文本分类模型难度样本方面的有效性。