大规模标签多标签文本分类的准确置信度度量

Dec, 2023

大规模标签多标签文本分类的准确置信度度量

Well-calibrated Confidence Measures for Multi-label Text Classification with a Large Number of Labels

Lysimachos Maltoudoglou, Andreas Paisios, Ladislav Lenc, Jiří Martínek, Pavel Král...

TL;DR我们扩展了我们之前关于归纳一致性预测（ICP）在多标签文本分类方面的工作，并提出了一种新的方法来解决处理大量唯一标签时，Label Powerset (LP) ICP 的计算效率低下的问题。我们在两个英语和一个捷克语数据集上使用原始的和提出的高效 LP-ICP 进行实验。具体而言，我们将 LP-ICP 应用于两种类型的三个深度人工神经网络（ANN）分类器：一个基于上下文环境的（bert），两个基于非上下文环境的（word2vec）词嵌入。在 LP-ICP 的设置中，我们为标签集分配了非一致性得分，从而确定相应的 p 值和预测集。我们的方法通过消除计算负担较大的标签集，这些标签集肯定会有低于指定显著性水平的 p 值，从而大大减小了方法的计算复杂度，同时完全尊重标准 CP 的保证。我们的实验结果表明，基于上下文环境的分类器胜过非上下文环境的分类器，并且在所有考察的数据集上获得了最先进的性能。底层分类器的良好性能传递到它们的 ICP 对应物上，而没有任何显著的精度损失，但具有 ICP 的附加优势，即预测集中蕴含的置信信息。我们通过实验证明，即使所有可能的标签集合中包含超过 $1e+16$ 个组合，所得到的预测集合也可以足够紧凑以实际使用。此外，所得到的预测集合的经验误差率证实了我们的输出的良好校准性。

Abstract

We extend our previous work on inductive conformal prediction (ICP) for multi-label text classification and present a novel approach for addressing the computational inefficiency of the →

inductive conformal prediction multi-label text classification label powerset computational efficiency deep artificial neural network

发现论文，激发创造

文本补全和词性预测的适应性预测

本研究提出基于收缩预测算法的文本填充和词性预测算法，并将其应用于自然语言数据处理中。通过在波士顿语料库中进行仿真实验，结论表明该算法能够生成有效的置信区间，并在机器语音转录中有改进应用。

Nov, 2021

基于可靠性的在多模式生物医学数据挖掘中的归纳拟合预测的噪声训练标签清理

我们提出了一种基于可靠性的训练数据清洗方法，利用归纳性依从预测 (ICP) 计算的可靠性度量来纠正大量嘈杂的训练数据中的标签错误和异常值，验证了该方法在三个分类任务中的有效性，显示出显著的分类性能提升，无需过多精心策划的训练数据。

Sep, 2023

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023

多类别和多标签预测中的有效和验证置信集

本文介绍一种基于分位数回归和树状结构分类器的符合性预测方法，可以有效解决多分类和多标签问题中难易样本分布不均匀、信心区间过大等挑战，且可以和任何分类模型结合使用并保证有效性。

Apr, 2020

研究感应阵预测模型中的数据使用

本研究通过多个实验证明了在有限或昂贵的开发数据情况下，允许训练集和校准集之间的示例重叠是一种高效的方式，从而提供了关于使用 ICPs 的价值的结论。

Jun, 2024

学习特征的符合预测

本文关注条件保证的合拟合预测问题，并提出了采用从校准数据中学习的不确定性引导特征来改进预测集的条件有效性的分区学习合拟合预测（PLCP）框架。我们在理论上分析了 PLCP，并对无限和有限样本大小提供了条件保证。最后，我们在四个真实世界和人工合成数据集上的实验证明了 PLCP 在分类和回归场景中相对于最先进方法在覆盖率和长度方面的卓越表现。

Apr, 2024

估计大型语言模型能力的方法（无需标记测试数据）

本文提出利用元模型，基于大型语言模型的置信度得分预测新任务的扩展学习（ICL）准确度，并在四个大型语言模型和三个任务集上对其进行了基准测试。

May, 2023

人工智能团队中预测集的效用

本文研究了如何在人与 AI 的合作中使用置信预测（conformal prediction）方法，发现使用置信预测可以提高团队绩效，引入 D-CP 方法则可以降低置信预测中的不确定性。

May, 2022

评估基于变换预测集的 AI 辅助图像标注的实用性

在高风险领域中部署深度神经网络时，由于缺乏可解释性，不确定性量化变得具有挑战性。本文通过大规模预注册实验，比较了使用符合性预测集合与 Top-1 和 Top-k 预测展示相比在 AI 辅助图像标注中表现的优势，并发现对易任务来说，预测集合与 Top-1 和 Top-k 展示的准确性相当或略少，但在标记超出分布范围的图像时，特别是当集合大小较小时，预测集合能够卓越地帮助人类进行标注。研究结果从实证角度指出符合性预测集合的实际挑战，并提供了将其纳入实际决策制定的启示。

Jan, 2024

通过神经模型逼近条件覆盖率和校准性

通过基于 Transformer 网络的 KNN 近似来构建数据驱动的分区，再通过 Inductive Venn 预测器进行校准，从而实现对不确定性的量化和计算机分类模型预测集的标记，进而实现最终任务的目标。

May, 2022