从多个群体估计未观察到的数据

ICMLJul, 2017

Estimating the unseen from multiple populations

Aditi Raghunathan, Greg Valiant, James Zou

TL;DR通过对多个种群的未知分布进行观测和最优估计，创新性地解决了从一个分布样本中寻找新元素的问题，并且开发了一种有效的优化算法来估计多群体频率分布。

Abstract

Given samples from a distribution, how many new elements should we expect to find if we continue sampling this distribution? This is an im

distribution sampling unseen estimation multi-population genomics

发现论文，激发创造

使用超几何分布估计未知人口规模

使用多元超几何分布以及变分自动编码器框架，本文提出了一种新的方法解决估计离散分布的挑战，并在极度欠采样的情况下进行估计。通过实证数据模拟和在自然语言处理和生物学领域的应用中的表现，我们证明了该方法的多样性和准确性。

Feb, 2024

看到的信息决定了未看到的信息的数量

基于训练数据中出现次数相同的类别数量，研究表明预期情况下，一个未知总体中不出现在训练数据中的类别的数据点比例几乎完全由训练数据中出现的类别数量决定。通过优化和遗传算法，发现估计器的均方误差（MSE）较传统的 Good-Turing 估计器要小。

Feb, 2024

基于学习的亚线性时间支持估计

本文提出了一种基于机器学习的辅助估计算法来解决大型数据集中不同元素数量的估计问题，并证明了当预测器正确的逼近因子为常数时，可以显著降低样本复杂度。

Jun, 2021

双组分混合模型的估计及其在多重检验中的应用

基于形状约束函数估计的思路，本文提出了一种估计混合比例和未知分布的方法，研究了其一致性和收敛速率，开发了自动化的无分布有保证的混合比例置信下限估计方法，并分析了在天文与微阵列实验中的应用。

Apr, 2012

学习离散分布的任意统计混合

本研究通过样本的简化抽样学习了一个代表复杂模型的概率分布，该模型有广泛的应用范围，包括无监督学习，主题模型和协同过滤。

Apr, 2015

从带有选择偏差的多个不确定观测中提取分布参数

提出了一种贝叶斯框架，用于将选择效应纳入人口分析中，并展示了如何从一个样本中提取基础分布的参数。演示了该框架的性能，从引力波天体物理学的例子中证明合并紧凑物体二元的质量比分布可以从具有实质性测量不确定性的 Malmquist 偏差观测中提取。

Sep, 2018

估计纠缠单样本分布中的位置参数

本研究考虑了独立采样数据的公共平均值估计问题，提出了一种估计器，它能够适应数据异质性的水平，在 i.i.d. 和某些非同质的设置下均达到近似最优，其估计器既考虑了传统统计学中的模态区间、shorth、中位数估计器，又利用了新型经验过程理论结果，在多元估计和回归的情况下，我们提出了可在多项式时间内运行的估计器版本。

Jul, 2019

学习参数人口的最大似然估计

研究了在观测了 Bernoulli 试验结果的基础上，针对具有未知分布的参数，利用最大似然估计方法准确地估计总体分布，提出了一种在样本容量不大于总体个体个数的情况下，MLE 能达到统计最优和高效计算的方法。

Feb, 2019

估计非零假设数目和效应大小

本文研究了估计多重检验背景下的效应大小分布的问题。我们提出了一种简单、高效的估计器，可使用廉价的试验数据，在比识别发现类试验所需采样数量显著少的情况下，估计该分布。该估计器可用于保证未来试验中给定实验设计中将被发现的发现数量，并展示了在 Drosophila 上进行的流感抑制基因敲除试验数据的有效性。

Feb, 2020

多类别分类的性能外推：能够识别多少张人脸？

通过使用少数类别的数据，可以预测分类器在更多类别情况下的性能表现，以生成分类器为前提，通过估算准确性分布的条件准确性分布的 k-1 时刻，可以提供性能外推的理论基础，同时探讨了方法的稳健性。

Jun, 2016