学习归纳态度预测的 PAC-Bayes 泛化证明
通过建立基础预测器的泛化性能与条件概率预测集成信息量之间的理论连接,本研究推导了一个上界,以便理解条件概率预测集的平均大小对校准数据量、目标可靠性和基础预测器的泛化性能的依赖关系。通过简单的数值回归和分类任务验证了理论洞察的有效性。
Jan, 2024
本研究提出基于收缩预测算法的文本填充和词性预测算法,并将其应用于自然语言数据处理中。通过在波士顿语料库中进行仿真实验,结论表明该算法能够生成有效的置信区间,并在机器语音转录中有改进应用。
Nov, 2021
我们扩展了我们之前关于归纳一致性预测(ICP)在多标签文本分类方面的工作,并提出了一种新的方法来解决处理大量唯一标签时,Label Powerset (LP) ICP 的计算效率低下的问题。我们在两个英语和一个捷克语数据集上使用原始的和提出的高效 LP-ICP 进行实验。具体而言,我们将 LP-ICP 应用于两种类型的三个深度人工神经网络(ANN)分类器:一个基于上下文环境的(bert),两个基于非上下文环境的(word2vec)词嵌入。在 LP-ICP 的设置中,我们为标签集分配了非一致性得分,从而确定相应的 p 值和预测集。我们的方法通过消除计算负担较大的标签集,这些标签集肯定会有低于指定显著性水平的 p 值,从而大大减小了方法的计算复杂度,同时完全尊重标准 CP 的保证。我们的实验结果表明,基于上下文环境的分类器胜过非上下文环境的分类器,并且在所有考察的数据集上获得了最先进的性能。底层分类器的良好性能传递到它们的 ICP 对应物上,而没有任何显著的精度损失,但具有 ICP 的附加优势,即预测集中蕴含的置信信息。我们通过实验证明,即使所有可能的标签集合中包含超过 $1e+16$ 个组合,所得到的预测集合也可以足够紧凑以实际使用。此外,所得到的预测集合的经验误差率证实了我们的输出的良好校准性。
Dec, 2023
通过使用物理信息的结构性因果模型 (PI-SCM) 来减小上界,我们验证了 PI-SCM 在置信水平和测试领域上对交通速度预测任务和多个真实世界数据集上的流行病传播任务的覆盖鲁棒性的提升。
Mar, 2024
利用证据一致性预测方法(ECP)为图像分类器生成一致性预测集,通过基于非一致性评分函数,利用目标标签的对数几率值推导出的证据计算非一致性评分函数的组成部分:一致性预测中的不确定性启发式概念、不确定性惊喜度和期望效用,实验评估结果证明,ECP 在生成一致性预测集方面优于三种先进方法,同时保持了对真实标签的覆盖。
Jun, 2024
通过基于 Transformer 网络的 KNN 近似来构建数据驱动的分区,再通过 Inductive Venn 预测器进行校准,从而实现对不确定性的量化和计算机分类模型预测集的标记,进而实现最终任务的目标。
May, 2022
本文关注条件保证的合拟合预测问题,并提出了采用从校准数据中学习的不确定性引导特征来改进预测集的条件有效性的分区学习合拟合预测(PLCP)框架。我们在理论上分析了 PLCP,并对无限和有限样本大小提供了条件保证。最后,我们在四个真实世界和人工合成数据集上的实验证明了 PLCP 在分类和回归场景中相对于最先进方法在覆盖率和长度方面的卓越表现。
Apr, 2024
使用一种新颖的算法,在标签偏移情境下构建具有 PAC 保证的预测集合,通过对目标领域的类别的预测概率和混淆矩阵进行估计,利用高斯消元算法传播这些估计的不确定性,计算重要性权重的置信区间,并利用这些区间构建预测集合。在几个基准数据集上评估我们的方法,证明该算法满足 PAC 保证,并且相较于几个基准算法,生成更小且更具信息量的预测集合。
Oct, 2023
通过两种新方法 ECP 和 EACP,根据基模型在未标记测试数据上的不确定性调整 CP 中的评分函数,从而仅使用测试域中的未标记数据改进 CP 生成的预测集的质量。通过对许多大规模数据集和神经网络架构进行广泛实验,我们展示了我们的方法相对于现有基准算法的持续改进,并几乎与监督算法的性能相匹配。
Jun, 2024