利用错标数据改进朴素贝叶斯

Apr, 2023

Improved Naive Bayes with Mislabeled Data

Qianhan Zeng, Yingqiu Zhu, Xuening Zhu, Feifei Wang, Weichen Zhao...

TL;DR提出了一种改进的朴素贝叶斯文本分类方法，通过使用 EM 算法迭代优化对应的对数似然函数并明确不正确标签的生成机制，大大提高了带有错误标签数据的朴素贝叶斯方法的性能表现。

Abstract

labeling mistakes are frequently encountered in real-world applications. If not treated well, the labeling mistakes can deteriorate the classification performances of a model seriously. To address this issue, we

labeling mistakes text classification naive bayes method em algorithm mislabeled data

发现论文，激发创造

朴素贝叶斯和文本分类 I - 介绍和理论

本文主要介绍纳伊夫 - 贝叶斯分类器在文档分类中的主要概念和应用。

Oct, 2014

不完美训练标签的分类

研究了不完美的训练数据标签对分类方法性能的影响，确立了一些条件，使得 knn 和 SVM 分类器对不完美标签有着鲁棒性并在某些情况下表现更佳，而 LDA 分类器因标签噪声而不一致，理论结果得到了模拟研究的支持。

May, 2018

噪声标签的误差有界修正

本文介绍了针对大规模标注数据不可避免存在 label noise 问题时，通过使用 noisy classifiers 算法来提高模型鲁棒性，进而讲解了该算法的理论解释，并提出了一种基于该算法的标签校正方法，结合深度神经网络，成功提升了测试性能。

Nov, 2020

分类数据集中的错误标记实例识别

本文提出了一种非参数化端到端的流程，用于发现在数字、图像和自然语言数据集中的错误标签实例。作者评估了其系统在添加少量标签噪音的情况下的性能，并显示了系统的 top 1％推荐的平均精度超过 0.84。作者最终将其方法的代码和可实现的实现发布出来。

Dec, 2019

捕获标签分布：自然语言推理案例研究

研究了自然语言推理任务中固有人类分歧 (注释标签分布) 的估计。通过后处理平滑预测的标签分布以匹配期望的标签熵取得了很好的效果。同时，通过引入有多个参考的少量样例进行训练，相较于传统做法每个训练样本只采集一个参考，我们发现这种多参考的方法可以在固定注释预算下实现更好的精度。最后，提供了对比这两种方法的丰富分析，用于改进标签分布估计。

Feb, 2021

在标记分类数据中检测标签错误

本文研究了在标记分类数据集中寻找包含标签错误的句子的方法，并通过在 CoNLL-2003 的实体识别数据中进行的准召率评估，确立了一种简单有效的方法，能够用于该任务。

Oct, 2022

通过主动学习提高文本分类中的概率模型

提出了一种将概率模型和主动学习结合起来的新算法，用于降低自动化文本分类的标注成本，实现对未标注数据和难分类文档的集中标注，性能可与最先进的方法相媲美，使用原有标注数据比最近发布的两篇研究中仅用一小部分标注数据得出的结论相同，并提供了 activeText 软件。

Feb, 2022

通过噪声建模实现文本分类标签噪声的鲁棒性

该论文研究了 NLP 中文本分类的标签噪声问题，提出了一种基于 beta 混合模型的辅助噪声模型，通过此模型可以减轻标签噪声对分类器的影响，提高分类准确率并防止过度拟合。

Jan, 2021

仅从相关关键词和未标记文档中学习

本文提出了一个理论上有保证的学习框架，用于无标签文档的分类问题，该框架可以灵活选择模型，并且有效地优化了接收器操作特征曲线下的面积，并在基准数据集上展示了其有效性。

Oct, 2019

从含有噪声标签的数据中学习如何学习

本文提出一种噪声容忍的训练算法，其中在传统梯度更新之前进行元学习更新来模拟实际训练。通过生成合成噪声标签进行训练，该元学习方法训练模型，以便在使用每个设置的合成噪声标签进行一次梯度更新后，模型不会过度拟合特定的噪声，从而提高深度神经网络的性能。

Dec, 2018