看到的信息决定了未看到的信息的数量

Feb, 2024

看到的信息决定了未看到的信息的数量

How Much is Unseen Depends Chiefly on Information About the Seen

Seongmin Lee, Marcel Böhme

TL;DR基于训练数据中出现次数相同的类别数量，研究表明预期情况下，一个未知总体中不出现在训练数据中的类别的数据点比例几乎完全由训练数据中出现的类别数量决定。通过优化和遗传算法，发现估计器的均方误差（MSE）较传统的 Good-Turing 估计器要小。

Abstract

It might seem counter-intuitive at first: We find that, in expectation, the proportion of data points in an unknown population-that belong to classes that do not appear in the →

data points unknown population training data estimators mean-squared error

发现论文，激发创造

高维信噪比的自适应估计

本研究旨在探究在高维线性回归模型的情况下，不了解回归参数稀疏性和设计分布对解释方差等因素的估计最小风险的影响，获得了在回归参数稀疏性不明确的情况下最小风险同时达到 logloss 的自适应程序，同时发现设计分布的了解对解释方差的估计至关重要。

Feb, 2016

从多个群体估计未观察到的数据

通过对多个种群的未知分布进行观测和最优估计，创新性地解决了从一个分布样本中寻找新元素的问题，并且开发了一种有效的优化算法来估计多群体频率分布。

Jul, 2017

INSPECTRE: 估算未知部分的隐私方法

本论文提出了一种隐私保护的差分私有方法，基于几种最先进的方法进行灵敏度分析，以实现估计分布属性方面的准确性，同时保持样本的 ε- 差分隐私，并在几种感兴趣的功能上证明了问题所需的样本大小的近乎严格的边界。

Feb, 2018

随机变量的最大值的预期验证性能和估计

本文分析了预期验证性能的三个统计估计方法在计算预算方面的效果，并在合成和现实情况下对三个估计器进行评估。其中，无偏估计器具有最高方差，方差最小的估计器具有最大的偏差；最小均方误差的估计器在偏差和方差之间取得了平衡，呈现出经典的偏差 - 方差权衡。我们使用预期验证性能来比较不同模型，并分析每个估计器导致选择哪个模型表现最佳的错误数量。我们发现两个有偏估计器导致最少的错误结论，这提示了最小化方差和均方误差的重要性。

Oct, 2021

高度相关变量互信息的有效估计

提出了一种新的相互信息非参数估计值，解决了其他方法基于局部分布均匀性计算相互信息的局限性，对于很少的数据也可以准确地估计两个相关变量之间的相互信息，并且在合成和真实世界数据上表现出卓越的性能。

Nov, 2014

解密固定 k 最近邻信息估计器

本文研究了基于 $KSG$ 估计的互信息估计中，样本数对偏差收敛速度的影响，发现了 $KSG$ 估计器的优越性能来源于 “相关性提升” 效应，并通过改进 $KSG$ 估计器构建出更优秀的估计器。

Apr, 2016

基于稳定中位数的自适应估计器泛化

本文主要介绍了一种基于近似中位数算法的算法来估算统计数据集的普适性，该算法满足差分隐私的强稳定性保证，解决了统计数据集在自适应问题上的泛化保证的新方法。

Jun, 2017

理解变分互信息估计器的局限性

论文提出并实现了一种新的基于神经网络的相互信息估计方法，该方法能够有效地减少方差并针对基准测试任务展现出更好的偏差 - 方差权衡性能。

Oct, 2019

不确定性中寻求合适的平衡

利用贝叶斯不确定性估计解决类别不平衡学习的问题，并且成功改进了面部验证、属性预测、数字 / 物体识别、皮肤病检测等六个基准数据集上的分类性能。

Jan, 2019

少样本分类通用性预测的统计模型

本文提出了一种基于高斯模型的特征分布参数估计方法，通过估计类间条件密度之间的距离实现对于少样本分类任务中泛化误差的预测，并在实验中表明该方法优于 leave-one-out cross-validation 等传统方法。

Dec, 2022