- 解开样本大小和初始效果对单神经元目标完美泛化的影响
过参数化模型,如深度神经网络,具有通过较少的采样数据点恢复目标函数的有趣能力。本研究集中研究了单神经元目标恢复场景,并系统地考察了初始化和样本大小对双层神经网络性能的影响。我们的实验证明,更小的初始化尺度与改善泛化有关,并确定了一个关键数量 - 降低泊松误差可以抵消临床任务中的分类误差
在医疗机器学习算法中,通过比较与临床医生定义的标准结果的准确性来评估该算法往往是合理的选择。然而,这并不能完全反映临床任务的实际情况:它忽视了人类由于罕见事件的 Poisson 统计学规律而产生的有时相当大的误差以及临床协议通常要求只检查相 - 基于随机采样的整张切片图像分类的多实例学习
在计算病理学中,通过对抽样补丁进行训练的多实例学习(MIL)方法在计算效率上是高效的,并且作为一种正则化策略。本研究探讨了不同采样大小对性能趋势以及对模型可解释性的影响,并在 CAMELYON16 数据集上使用 30% 的补丁实现了 1.7 - 基于 K 臂随机实验的条件对照均值估计的样本大小规划
确定一个足够大的样本大小以估算数据驱动的子组中的条件反事实期望,将问题转化为同时推断问题并与固定的样本大小预算相关联,以逆推可行的治疗方案数量或分区复杂度。
- 基于卡尔曼滤波器的框架进行住院期间死亡预测模型的性能监控
为了在比较不同时间段的二元分类器的性能时更公平,我们提出了一种基于卡尔曼滤波器的方法,通过调整样本量和类别分布来估计性能指标的均值和随时间变化。我们在合成数据集和 COVID-19 患者的医院内 2 天预测模型上验证了该方法的有效性,并得出 - 每个任务非常少的样本的元学习
在这项研究中,我们研究了元学习和多任务学习的框架,探讨了在小样本情况下,通过少量任务和样本,能否学习到有效的共享表示,并利用该表示解决二分类问题。
- 受限采样下相位恢复的本地景观
在本文中,我们提供了对有限样本情况下相位恢复的局部景观的精细分析,旨在确定在高维情况下保证围绕全局最小值的良好局部景观所需的最小样本量。
- 利用数据集亲和性预测在目标检测中评估训练数据
通过在标准目标检测流程中引入数据源预测模块,我们提出了一种方法来评估数据汇总的有效性,并展示了所谓的数据亲和性得分在从异构车辆数据集中自动选择样本时的好处。结果显示,即使在训练样本显著稀疏的情况下,目标检测器仍能保持检测准确性。
- Gromov-Wasserstein 插值聚类与降维
我们提出了一种适用于现有降维目标的通用适应方法,同时降低样本和特征大小。通过半松弛的 Gromov-Wasserstein 最优输运问题计算输入和嵌入样本之间的对应关系。当嵌入样本大小与输入大小匹配时,我们的模型恢复了经典的受欢迎的降维模型 - 教程:簇分析、潜在类分析和多元混合模型的样本量、效应大小和统计功效的先验估计
在确定样本量和效应量时,本文介绍了一种程序,用于形式化研究者对所选择领域的效应量的预期,从而计算所需的最小测量变量数量,同时还概述了确定子群分析的最小样本量的方法,并使用模拟提供了常用子群分析方法(k 均值,Ward 层次聚类,c 均值模糊 - 在语音、语言和听力科学中迈向具有普适性的机器学习模型:功效分析和样本量估计
提供数量证据来推动研究者使用嵌套交叉验证方法,同时介绍在研究设计中进行机器学习分析的功率分析方法和 MATLAB 代码,使用 Monte Carlo 模拟比较了四种不同的交叉验证方法,在统计效力和统计置信度方面比较,结果表明嵌套 10 折交 - 能否达成一致?论罗生门效应与事后可解释人工智能的可靠性
在 Rash\=omon 效应的样本集中,本研究使用 SHAP 对模型的解释进行了影响样本大小的研究。在 5 个公共数据集上的实验显示,随着样本量的增加,解释逐渐趋于一致。少于 128 个样本的解释具有很高的变异性,限制了可靠的知识提取。然 - 最大偏离经验分布的保证最优生成建模
使用生成建模方法,本文提供了关于生成模型训练的理论洞察力,重点强调数据生成分布与训练数据生成分布之间的误差应随着样本量趋近无穷而趋近于零,并确保训练数据生成分布与任何复制训练数据样本的分布之间足够远。
- 乐观估计揭示非线性模型的潜力
我们提出了一种乐观估计方法,用于评估非线性模型的最佳拟合性能。我们估计了矩阵分解模型、深度模型和深度神经网络 (DNN) 在过参数化情况下所需的最小样本大小,揭示了 DNN 模型的两个特殊属性,并提出了 DNN 的架构设计原则,从而理论上揭 - (核)岭回归过拟合成本的无神论观点
本文通过分析基于高斯全局性假设的非严谨风险估计来探究噪声核岭回归中过拟合的代价,并对其进行了更精细的分类:良性、温和和灾难性过拟合。
- 合成功率分析:经验评估及其在认知神经影像学中的应用
本论文提出了一种名为 “合成功效分析” 的框架,通过在观察到的认知过程的条件下使用隐式生成模型合成脑成像数据,以实验性地探究其在样本大小选择方面的性能,结果表明,这种方法可以作为先导数据收集的低成本替代方案。
- 因果关系的概率:实验和观测样本的充分大小
本文针对决策问题,使用实验和观测数据推导出必要性和充分性(PNS)、充分性(PS)和必要性(PN)概率的尖锐边界。作者进一步提出了一种确定所需样本量的方法,并证明此样本量模拟稳定估计了 PNS 范围的界限。
- 具有普遍单调误差的普遍一致学习规则
我们提出了一种普遍一致的学习规则,其期望误差在每个数据分布下随样本量单调非增。该规则是一种完全确定性的、数据依赖的划分规则,使用循环顺序在任意域(标准 Borel 空间)中构建。其核心思想是只在每个步骤中对那些表现出足够经验多样性的循环区间 - ICML当没有预警的异常值压倒时的连贯回归
研究了具有重尾噪声分布的健壮线性回归模型,提出了 Huber 损失估计器,证明其在样本量近线性和异常值分数倒数多项式情况下具有一致性。
- 二元回归是否可能进行无分布推断?
研究提供不基于数据分布的置信区间用于二分类回归问题,建立置信区间的下限并构建数据量大小无关的求解方法。