- 自动机器学习背景下的预测性能置信区间估计
在 AutoML 环境下,比较评估了 9 种最先进的方法和变体在置信区间(CI)估计方面的表现,以包含百分比、CI 的紧致性和执行时间为指标,结果支持 BBC-F 和 BBC 在所有度量指标上优于其他方法。
- 使用并行随机优化几乎免费实现高置信度推断
通过利用少量的独立多轮运行获得分布信息并构建基于 t 分布的置信区间,在保证高置信水平的前提下,提出了一种快速计算收敛到名义水平置信区间的新型推断方法,几乎不需要额外的计算和内存开销。
- 模型基准度量方法的忠实模型评估
统计学意义检验用于自然语言处理(NLP)中,用于确定研究或实验的结果是否可能是由于偶然性还是反映了真实关系。我们在模型基于度量的统计显著性测试中,考虑模型误差对样本方差的影响,并通过公共基准数据集和生产系统的实验,展示了在某些实验中,考虑模 - 分布偏移感知的离策略区间估计:一种统一的误差量化框架
我们研究了基于无限时域马尔科夫决策过程的高置信度离策略评估,目标是仅使用预先收集的来自未知行为策略的离线数据建立目标策略值的置信区间。通过创新的统一误差分析,我们共同量化了建模边际化重要性权重的错误以及由抽样引起的统计不确定性这两个估计误差 - 可视验证与可视估计:散点图中的平均值研究
本研究探讨了个体用视觉方式验证统计模型与数据拟合的能力。通过对两个不同群体(众包参与者和志愿者)的研究,发现被接受为有效模型的准确度较估计模型低,并且参与者的验证和估计是无偏的。此外,发现他们在接受和拒绝给定均值时的临界点接近其 95% 置 - 生物等效性研究中的置信区间
本论文讨论了生物等效性研究中的置信区间方法和食品药品监督管理局指导下,进行一种大小为 -α 的生物等效性检验的标准方法及其验证方式。
- 基于探测器的重要性采样的大规模图像集计数
提出了一种基于探测器和人机筛选的重要性抽样框架 DISCount 用于大规模图像集合中的目标检测和计数,能够显著减少标签成本并提高筛选效率。
- 公平性不确定性量化:您有多确定该模型是公平的?
本文提出了一种在线 multiplier bootstrap 方法,用于构建置信区间,以评估通过在线 SGD 类型算法训练具有 Disparate Impact 和 Disparate Mistreatment 意识的线性二元分类器的公平性 - 提高电动飞机制动系统的轮胎 - 路面摩擦估计和不确定性评估
本文提出了基于 MLP 神经网络的数据驱动方案,用于估计飞机降落阶段地面摩擦系数,使用随机神经网络权重 dropout 机制,以在线方式估计拟合最佳摩擦系数的置信区间,从而提供与神经网络模块相关的认知不确定性的表征。通过开环和闭环模拟展示了 - KDDJuryGCN:量化图卷积网络的 Jackknife 不确定性
本文提出了一种名为 JuryGCN 的基于频率学派的方法,该方法利用杰克耐夫估计器将节点的不确定性量化为置信区间的宽度,利用影响函数估计 GCN 参数的变化而无需重新训练,从而能够对 GCN 的不确定性进行确定性量化。在真实世界的数据集上进 - 因果关系的概率:实验和观测样本的充分大小
本文针对决策问题,使用实验和观测数据推导出必要性和充分性(PNS)、充分性(PS)和必要性(PN)概率的尖锐边界。作者进一步提出了一种确定所需样本量的方法,并证明此样本量模拟稳定估计了 PNS 范围的界限。
- MM无需方差的最优均值估计
研究了在数据生成分布的方差不存在的情况下对重尾均值估计问题的解决方案,提出了一种具备计算效率的估计器,并通过信息理论建立了最优可达置信区间的信息理论下界。
- ICML使用核贝尔曼统计量进行负责任离线策略评估
本文提出一个新的变分框架,将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题,通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明,我们的方法在不同环境下都能产生紧密的置信区间。
- 离线策略评估中的统计自举法用于不确定性估计
本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力,并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。
- 自适应双探索权衡策略用于异常检测
本文研究一类基于阈值的异常检测问题,提出双重探索算法,通过构建自适应置信区间和自动平衡各臂探索与阈值探索的权衡,实现更高效的异常检测。实验表明本算法在合成和真实数据集上均表现出色。
- ACL测量不确定性下分类器的公平性使用 Bernstein Bounds
使用 Bernstein 界限来表示关于偏差估计的不确定性,从而帮助防止分类器被认为是有偏见或无偏见,当没有足够的证据来做出任何一个主张。
- 带区间估计的一致预测
提出了一种名为局部一致性预测的新方法,它可以仅使用新测试样本周围的局部区域来构建置信区间,旨在将数据互换性打破为测试样本赋予特殊角色的情况下,推广了一致性预测方法,并证明了其假设无关与有限样本覆盖保证,并在模拟中比较了局部一致性预测和一致性 - 从噪声测量中恢复主观质量评分
本研究提出了一种基于最大似然估计的新方法,可以从嘈杂的原始测量中恢复主观质量分数,并联合估计受损视频的主观质量,测试对象的偏差和一致性以及视频内容的歧义性,同时提供了每个估计的置信区间的封闭形式表达式。相对于先前方法,我们的方法能够充分利用 - 差分隐私普通最小二乘法
通过利用高斯约翰逊 - 林登斯特劳斯变换(JLT)来估计 OLS 中的 $t$ 值并推导出投影后的数据的置信区间,该文提出了一种基于不同隐私估计器的类似保证性质的方法。
- BSDE 的原始对偶算法
使用原始对偶方法泛化向时间离散化方案(倒数的)背向随机微分方程关联的反向动态编程方程,为先前不存在的两个五维非线性定价问题提供确切的价格范围。