自适应分数的传感式一致推断

Oct, 2023

Transductive conformal inference with adaptive scores

Ulysse Gazin, Gilles Blanchard, Etienne Roquain

TL;DR条件推断是一种基本且多用途的工具，为许多机器学习任务提供无分布保证。我们考虑转导设置，在该设置中，根据 $m$ 个新点的测试样本做出决策，产生 $m$ 个整合 p 值。我们表明它们的联合分布遵循一个 Pólya 陶壶模型，并为它们的经验分布函数建立浓度不等式。

Abstract

conformal inference is a fundamental and versatile tool that provides distribution-free guarantees for many machine learning tasks. We consider the →

conformal inference transductive setting concentration inequality adaptive scores machine learning tasks

发现论文，激发创造

分布偏移下的自适应符合推断

本文提出了一种自适应的线上学习方法 - 自适应符合推断方法，该方法结合了预测集和符合推断的思想，能够在任何黑箱模型中实现长时间内预期的覆盖概率，从而解决了数据变化扰动的问题。

Jun, 2021

本地化拟合预测：一种基于推理的拟合预测通用框架

本文提出一种名为局部合规预测的新的推理框架，它通过提供围绕测试样本的局部区域的自适应构建的单次测试样本，以及与不同合规得分结构相结合，来推广合规预测的框架。该框架享有无假设的有限样本边际覆盖保证，并在适当的假设条件下提供额外的局部覆盖保证。我们展示了如何使用多个合规分数从合规预测变为局部合规预测，并通过数值实例说明了潜在的收益。

Jun, 2021

超越交换性的合拍预测

本文提出一种新的针对预测模型的 Conformal prediction 泛化方法，通过引入加权分位数来抵御数据分布漂移的影响，同时设计一种新的随机化技术，允许不对称处理数据点的算法。实验表明，该方法在数据点不可交换的情况下具有较高的鲁棒性，并且在数据点可交换情况下达到了与现有方法相同的覆盖率保证。

Feb, 2022

具有有效和自适应覆盖范围的分类

本文提出了新型一致性得分，结合适用于分类问题的定制化 Conformal inference、交叉验证、Jackknife 等方法，在保证边际覆盖率的前提下，也可以应对复杂的数据分布，其在合成数据和真实数据上获得实际价值和统计优势。

Jun, 2020

对于任何数据分布，存在一致有效性保证

机器学习系统中风险量化与控制的研究，集中在处理 ML 系统收集自身数据时产生的数据分布变化问题，通过扩展 conformal prediction 理论以适应任意数据分布，并提出了针对特定数据分布的可行算法，以解决这一挑战。

May, 2024

具有相关数据的预测机器学习的精确和鲁棒的适应性推断方法

本文提出了基于随机化的方法来拓展符合推理的应用，使其能适用于时间序列数据，并通过引入分块结构来考虑潜在的串行相关性。当数据是独立同分布或更普遍地可交换时，该方法与传统的符合推理方法具有相同的无需模型的有效性；当数据不可交换时，如常见的时间序列数据，该方法在对符合程度得分的弱假设下也具有近似的有效性。

Feb, 2018

通过神经模型逼近条件覆盖率和校准性

通过基于 Transformer 网络的 KNN 近似来构建数据驱动的分区，再通过 Inductive Venn 预测器进行校准，从而实现对不确定性的量化和计算机分类模型预测集的标记，进而实现最终任务的目标。

May, 2022

机器翻译评估的共形化

本文研究机器翻译的不确定性评估方法，发现目前大多数方法对模型不确定性的估计较低，建议采用分布自由的合规预测法来保证覆盖度，并提出条件合规预测技术来获得每个数据子组的校准子集，从而实现覆盖率均衡。

Jun, 2023

不变风险最小化的一致性推断

发展了一种方法来获得无分布预测区域，以描述不同环境下数据的分布差异，应用于机器学习中的无变异风险最小化（IRM）模型，基于加权遵从得分构造自适应遵从区间，并证明其条件平均值在某些条件下，通过模拟实验和实际案例的应用证明方法的有效性。

May, 2023

使用符合预测分布评估机器翻译质量

本文介绍了一种新的评估机器翻译不确定性的方法，通过同时评估翻译质量并提供可靠的置信度分数来实现。我们的方法利用符合性预测分布来生成具有保证覆盖率的预测区间，意味着对于任何给定的显著性水平，我们可以预期翻译的真实质量得分以 $1-ε$ 的速率落在区间之外。在本文中，我们演示了我们的方法在六种不同的语言对中优于一个简单但有效的基线，从覆盖率和锐度的角度进行评估。此外，我们验证了我们的方法需要数据可交换性假设才能实现最佳性能。

Jun, 2023