基于可靠性的在多模式生物医学数据挖掘中的归纳拟合预测的噪声训练标签清理
我们扩展了我们之前关于归纳一致性预测(ICP)在多标签文本分类方面的工作,并提出了一种新的方法来解决处理大量唯一标签时,Label Powerset (LP) ICP 的计算效率低下的问题。我们在两个英语和一个捷克语数据集上使用原始的和提出的高效 LP-ICP 进行实验。具体而言,我们将 LP-ICP 应用于两种类型的三个深度人工神经网络(ANN)分类器:一个基于上下文环境的(bert),两个基于非上下文环境的(word2vec)词嵌入。在 LP-ICP 的设置中,我们为标签集分配了非一致性得分,从而确定相应的 p 值和预测集。我们的方法通过消除计算负担较大的标签集,这些标签集肯定会有低于指定显著性水平的 p 值,从而大大减小了方法的计算复杂度,同时完全尊重标准 CP 的保证。我们的实验结果表明,基于上下文环境的分类器胜过非上下文环境的分类器,并且在所有考察的数据集上获得了最先进的性能。底层分类器的良好性能传递到它们的 ICP 对应物上,而没有任何显著的精度损失,但具有 ICP 的附加优势,即预测集中蕴含的置信信息。我们通过实验证明,即使所有可能的标签集合中包含超过 $1e+16$ 个组合,所得到的预测集合也可以足够紧凑以实际使用。此外,所得到的预测集合的经验误差率证实了我们的输出的良好校准性。
Dec, 2023
该研究开发了新的遵循性预测方法,用于分类任务,可以自动适应标签污染,实现比现有方法更具信息量的预测集,并提供更强的覆盖保证。通过对标签污染下标准遵循性推断所面临的准确理论特征进行精确刻画,并通过新的校准算法实施行动。我们的解决方法灵活,并且可以利用关于标签污染过程的不同建模假设,同时无需关于数据分布或机器学习分类器内部工作的任何知识。通过广泛的模拟实验和对 CIFAR-10H 图像数据集的对象分类应用来证明了所提出方法的优势。
Sep, 2023
本研究提出基于收缩预测算法的文本填充和词性预测算法,并将其应用于自然语言数据处理中。通过在波士顿语料库中进行仿真实验,结论表明该算法能够生成有效的置信区间,并在机器语音转录中有改进应用。
Nov, 2021
通过在设定的概率内构建小的预测集合,拟合预测集合可量化网络不确定性。本研究针对带有噪声标签的校准问题,引入了一种对标签噪声具有鲁棒性的拟合得分。通过使用带有噪声标签的数据和噪声水平估算出无噪声的拟合得分,并在测试阶段使用该得分形成预测集合。我们将该算法应用于几个标准医学图像分类数据集,发现我们的方法在预测集合的平均大小方面明显优于当前方法,同时保持所需的覆盖率。
May, 2024
本研究探究了针对标签噪声的确定性估计方法 ——“conformal prediction” 的鲁棒性。通过理论证明和实验验证,提出了对于正确覆盖未观测噪声的基准真实标签,构建正确的不确定性集合的可能性和条件,并发现除了在数据分布或噪声源方面存在病态的特殊情况外,纠正标签噪声并不必要。在这种情况下,可以在确定性预测算法中纠正有界大小的噪声以确保正确覆盖基准真实标签,而无需直接调整得分或数据稳定性。
Sep, 2022
该研究旨在将一致性预测方法应用于放射学深度学习模型,以提高其可信度和可靠性,研究结果显示该方法在自动性脑内出血检测方面表现出良好的性能和潜力。
Jan, 2024
本研究提出了一种基于标签质量而非模型预测的学习方法 ——Confident Learning(CL),通过对数据进行剪枝、使用概率阈值计数来估算噪声,并对样本进行排序,以提高其置信度。我们基于假设类条件噪声过程直接估算了噪声标签和无污染标签之间的联合分布,提出了一种广义 CL,它是可证明一致和实验表现优异的。我们在不同类型数据上运用 CL,包括 MNIST 数据集、Amazon 评论库、以及 ImageNet 数据集的一些子集,结果表明 CL 可以清除不同类型数据中的噪声,提高模型准确性。
Oct, 2019
通过两种新方法 ECP 和 EACP,根据基模型在未标记测试数据上的不确定性调整 CP 中的评分函数,从而仅使用测试域中的未标记数据改进 CP 生成的预测集的质量。通过对许多大规模数据集和神经网络架构进行广泛实验,我们展示了我们的方法相对于现有基准算法的持续改进,并几乎与监督算法的性能相匹配。
Jun, 2024