基于贝叶斯预测的推断

May, 2024

Bayesian Prediction-Powered Inference

R. Alex Hofer, Joshua Maynez, Bhuwan Dhingra, Adam Fisch, Amir Globerson...

TL;DR基于有限的人工标记数据，预测引导推理（PPI）方法可以提高统计估计。我们提出了一个基于贝叶斯推理的 PPI 框架，可以方便地开发新的任务适用的 PPI 方法，包括针对离散回答和非线性评分的 autoraters 的改进方法。

Abstract

prediction-powered inference (PPI) is a method that improves statistical estimates based on limited human-labeled data. Specifically, ppi methods provide tighter →

prediction-powered inference ppi methods confidence intervals bayesian inference autoraters

发现论文，激发创造

PPI++：高效的预测驱动推理

基于小型标记数据集和通常远大于其的机器学习预测数据集，我们提出了 PPI++：一种计算轻量级的估计和推断方法。该方法自动适应可用预测的质量，生成易于计算的置信区间（对于任何维度的参数），始终改进传统的区间估计方法，仅使用了标记数据。PPI++ 建立在预测驱动的推断（PPI）的基础上，解决了相同的问题设置，并提高了其计算和统计效率。真实和合成实验证明了所提出改进的好处。

Nov, 2023

基于分层预测的混合语言模型评估

基于有限的人工标注数据，利用预测增强推断 (Prediction-powered inference, PPI) 方法可以改善统计估计。Stratified Prediction-Powered Inference (StratPPI) 是一种通过简单的数据分层策略来改善基本的 PPI 估计的方法。它提供了一种基于分层采样的计算成簇样本参数（例如平均值）的有效置信区间的算法，可以在多种条件分布的目标数据中获得比非分层方法更紧密的置信区间。

Jun, 2024

预测驱动的推论

提出了一种利用机器学习进行预测的统计推断框架，可有效计算均值、分位数、线性和逻辑回归系数的置信区间，适用于蛋白质组学、基因组学等多种领域。

Jan, 2023

关于预测强化引导的自助法注释

PPBoot is a bootstrap-based method that simplifies and expands the scope of prediction-powered inference to estimation problems without requiring asymptotic characterizations.

May, 2024

基于交叉预测的推理

通过交叉预测方法进行有效机器学习推断，通过利用小规模标记数据集和大规模未标记数据集，来修正预测不准确性和潜在偏见，并获得更强大且置信区间更稳定的推断结果。

Sep, 2023

学术论文引用预测

研究了学术论文引用格局随时间演变的特点，提出了基于 “学术论文固有质量”、“论文引用的时效性”、“早期引用” 和 “早期引用的影响力” 四个因素的学术论文潜力指数模型 (PPI)，并通过分析影响论文引用增长的因素，提出了多特征的影响力预测模型，实验证明这两种模型的预测准确性得到了改善。其中，相对于多特征模型，PPI 模型的预测性能更好，且不需要调整参数，因此更好的解释了引用的变化。而多特征模型在平均绝对百分误差和准确性方面表现更好，但它们的预测效果更依赖于参数调整。

Aug, 2020

不变概率预测

近年来，对于在训练和测试数据之间分布变化下表现出鲁棒性能的统计方法引起了越来越多的关注。本文关注点预测的统计研究主要关注的是均方误差损失，而本文则将关注焦点转向概率预测，旨在全面量化给定协变量的结果变量的不确定性。我们在因果性启发框架下，研究了概率预测在适当评分规则下的不变性和鲁棒性。我们证明了任意的分布变化通常不具有不变且鲁棒的概率预测，与点预测的情况相反。我们通过说明如何选择评估指标并限制分布变化的类别，以实现在典型的高斯异方差线性模型中的可识别性和不变性。在这些发现的基础上，我们提出了一种能够产生不变概率预测的方法，称为 IPP，并研究了底层参数的一致性。最后，我们在模拟数据和单细胞数据上展示了我们提出的方法的实证表现。

Sep, 2023

参数规划选择推理中的有界 P 值

我们提出了一种方法来减少计算成本，同时保证所需的精度，通过计算 p 值的上下界，并提出了三种有效提升这些界限的搜索策略。我们在线性模型的特征选择和深度神经网络中的注意区域识别的假设检验问题中展示了该方法的有效性。

Jul, 2023

主动统计推理

活跃推理是一种与机器学习辅助数据收集相结合的统计推理方法，它通过在有限的标签收集预算下，利用机器学习模型识别哪些数据点最有利于标记，从而有效地利用资源。

Mar, 2024

基于远程标注和置信度校准的大规模蛋白质翻译后修饰抽取

在这项研究中，作者使用 IntAct PPI 数据库创建了一个远程监督的数据集，用 PPI-BioBERT-x10 训练集成的 BioBERT 模型来预测蛋白质对之间的 PTMs，并提出一个置信度校准的方法以对其进行过滤和人工筛选。他们发现，即使进行了置信度校准，也会出现在测试数据集外的误差和挑战。因此，他们利用多篇文章进行预测，从而提高了预测的精度和可靠性。这项研究探讨了深度学习方法在文本挖掘中的应用和局限性，同时强调了在人工筛选过程中置信度校准的重要性。

Jan, 2022