使用多元超几何分布以及变分自动编码器框架,本文提出了一种新的方法解决估计离散分布的挑战,并在极度欠采样的情况下进行估计。通过实证数据模拟和在自然语言处理和生物学领域的应用中的表现,我们证明了该方法的多样性和准确性。
Feb, 2024
基于训练数据中出现次数相同的类别数量,研究表明预期情况下,一个未知总体中不出现在训练数据中的类别的数据点比例几乎完全由训练数据中出现的类别数量决定。通过优化和遗传算法,发现估计器的均方误差(MSE)较传统的 Good-Turing 估计器要小。
本文提出了一种基于机器学习的辅助估计算法来解决大型数据集中不同元素数量的估计问题,并证明了当预测器正确的逼近因子为常数时,可以显著降低样本复杂度。
Jun, 2021
基于形状约束函数估计的思路,本文提出了一种估计混合比例和未知分布的方法,研究了其一致性和收敛速率,开发了自动化的无分布有保证的混合比例置信下限估计方法,并分析了在天文与微阵列实验中的应用。
Apr, 2012
本研究通过样本的简化抽样学习了一个代表复杂模型的概率分布,该模型有广泛的应用范围,包括无监督学习,主题模型和协同过滤。
Apr, 2015
提出了一种贝叶斯框架,用于将选择效应纳入人口分析中,并展示了如何从一个样本中提取基础分布的参数。演示了该框架的性能,从引力波天体物理学的例子中证明合并紧凑物体二元的质量比分布可以从具有实质性测量不确定性的 Malmquist 偏差观测中提取。
Sep, 2018
本研究考虑了独立采样数据的公共平均值估计问题,提出了一种估计器,它能够适应数据异质性的水平,在 i.i.d. 和某些非同质的设置下均达到近似最优,其估计器既考虑了传统统计学中的模态区间、shorth、中位数估计器,又利用了新型经验过程理论结果,在多元估计和回归的情况下,我们提出了可在多项式时间内运行的估计器版本。
Jul, 2019
研究了在观测了 Bernoulli 试验结果的基础上,针对具有未知分布的参数,利用最大似然估计方法准确地估计总体分布,提出了一种在样本容量不大于总体个体个数的情况下,MLE 能达到统计最优和高效计算的方法。
Feb, 2019
本文研究了估计多重检验背景下的效应大小分布的问题。我们提出了一种简单、高效的估计器,可使用廉价的试验数据,在比识别发现类试验所需采样数量显著少的情况下,估计该分布。该估计器可用于保证未来试验中给定实验设计中将被发现的发现数量,并展示了在 Drosophila 上进行的流感抑制基因敲除试验数据的有效性。
Feb, 2020
通过使用少数类别的数据,可以预测分类器在更多类别情况下的性能表现,以生成分类器为前提,通过估算准确性分布的条件准确性分布的 k-1 时刻,可以提供性能外推的理论基础,同时探讨了方法的稳健性。
Jun, 2016