RooStats 项目

Sep, 2010

The RooStats Project

Lorenzo Moneta, Kevin Belasco, Kyle Cranmer, Sven Kreiss, Alfio Lazzaro...

TL;DRRooStats 是一个旨在创建先进的统计工具来分析 LHC 数据的项目，强调发现、置信区间和组合测量，其提供了一组 C++ 类作为主要的统计技术，用于任意模型和数据集的分析，并以一种通用的方法进行访问。

Abstract

roostats is a project to create advanced statistical tools required for the analysis of lhc data, with emphasis on discoveries,

roostats statistical tools lhc data confidence intervals probability models

发现论文，激发创造

数据建模的 RooFit 工具包

RooFit 是一个用 C++ 编写的库，用于在 ROOT 环境中进行数据建模，支持建立复杂的拟合模型和使用似然函数进行拟合、绘图和大规模数据处理。

Jun, 2003

通过置信区间和假设检验对随机森林中的不确定性进行量化

本文提出针对机器学习集成方法的正式统计推断程序，重点在于利用样本的子样本进行 U - 统计的预测，进而提供置信区间，以及作为检验功能、估计方差等应用。

Apr, 2014

基于似然比检验的新物理渐近公式

本文介绍了在高能物理中进行新现象发现和模型参数置信区间的基于似然的统计检验方法，聚焦于测试程序的性质，包括系统误差的考虑，推导了 Wilks 和 Wald 结果的渐近分布的显式公式，提出并证明使用代表性数据集 Asimov 数据集的方法，该数据集提供了一种在搜索或测量中获得中位实验灵敏度以及这一期望的波动的简单方法。

Jul, 2010

Geomstats：Python 机器学习中的黎曼几何包

该论文介绍了 Geomstats，一种开放源代码的 Python 工具箱，用于在非线性流形上进行计算和统计学，其提供了可靠的可重用构件，适用于机器学习应用中的微分几何和统计学领域。

Apr, 2020

StatWhy：统计假设检验程序的形式化验证工具

应用形式化规范方法和自动验证技术，开发了一种检验统计程序正确性的新方法，可以避免在科学研究中广泛存在的统计方法滥用和误解问题。

May, 2024

统计与可解释性：一个有成效的联盟

本研究提出使用标准统计工具来解决说明性文献中普遍存在的问题，通过利用统计估计器来定义解释，从而实现理论保证和评估指标的制定，以定量评估解释的质量。此方法避免了目前文献中普遍存在的主观人为评估。此外，我们认为不确定性量化对于提供稳健可信的解释至关重要，并且可以通过诸如自助法等经典统计方法在这个框架中实现。然而，需要注意的是，虽然统计学提供了宝贵的贡献，但它并不能解决所有问题。未来的研究方向可以聚焦于一些开放性问题，如为解释定义目的或建立适用于对策或对抗场景的统计框架。

Apr, 2024

高维回归的置信区间和假设检验

该文提出了一个新颖的算法，用于构建自然参数的置信区间和 p 值，并使用高维线性回归问题和一个高通量基因组数据集进行测试。

Jun, 2013

鲁棒优化的统计学：一种广义经验似然方法

本文研究了基于经验似然和分布鲁棒解的方法进行随机优化问题的统计推断，特别关注最优值的置信区间和渐近达到精确覆盖的解决方案。我们提出了一个基于非参数 $f$- 分歧球构建的分布不确定性集合的广义经验似然框架，用于 Hadamard 可微函数和随机优化问题，从而提供了一个有原则的选择分布不确定性区域大小的方法，以实现达到精确覆盖的单侧和双侧置信区间。我们还给出了我们分布鲁棒的公式的渐近展开，表明如何通过方差来规范化问题。最后，我们证明了，我们研究的分布鲁棒公式的优化器具有与经典样本平均逼近中的优化器基本相同的一致性属性。我们的一般方法适用于快速混合的平稳序列，包括几何上遗传的 Harris 递归马尔科夫链。

Oct, 2016

geomstats：机器学习中的黎曼几何 Python 包

介绍了 geomstats 这个 python 包，它支持处理多维流形，并提供多种 Riemannian metrics 以及 keras 深度学习框架等的实现，从而在机器学习中提供了一系列直观的损失函数选择。Paper 还对机器学习中的流形进行了回顾，并对 geomstats 进行了概述，并通过展示使用 geomstats 实现基于 Riemannian geometry 的机器学习示例来演示其高效性和易用性。

May, 2018

ranger: 高维数据中随机森林的快速实现 C++ 和 R

介绍了一个快速实现高维数据随机森林的 C++ 应用和 R 软件包 ranger，支持分类、回归和生存树的集成。验证表明，该软件是用于分析基因组关联研究规模数据的最快速、最内存有效的随机森林实现。

Aug, 2015