- 协调混乱:神经网络训练的运行差异是无害且不可避免的
本文研究了神经网络训练过程中的表现差异性,找出了其来源,证明了其不可避免的存在性,并通过初步研究从各个方面探讨了训练初值、数据扩增和学习率等方面的影响。
- 公平与稳定性:估计方差是朋友还是敌人?
本文讨论了估计器误差分解中的偏差项、方差项和不可避免噪声项, 研究了社会特权和社会劣势群体的公平性问题,并提出了一种基于组间方差的性能度量方法。同时,研发了一个开源库,将不确定性量化技术与公平性分析融合,并在标准基准测试上对基于方差的公平性 - ICLR机器学习研究的推断可再现性
本研究探讨了机器学习模型评估的可靠性,提出了使用线性混合效应模型的方法,以分析性能评估分数,并使用广义似然比检验进行统计推断。同时,本文还探讨了数据属性与算法噪声因素之间的相互作用,以及噪声源对整体方差的贡献和可靠性系数的计算方法。
- 公平分类中的方差、自一致性和任意性
本文介绍了一种关于在公平分类中使用集成算法,解决分类结果不稳定导致任意性和观点关于公平性的不可靠等问题。实验结果表明,我们的方法可以显著降低子组误差率差异,无需使用常见的公平性干预措施。
- DADAgger:基于分歧扩增的数据集聚合
本文介绍了一种改进的 DAgger 算法 ——DADAgger,它只针对其原数据集中的分布不一致的状态 - 行动对询问专家,并通过 dropout 模拟来测量每个状态的模型预测的行动方差,进而实现高效、良好平衡的训练数据集的构建。
- WSDM基于级联行为模型的排序策略双重稳健离线评估
提出了一种新的基于级联假设的有偏差 - 无方差权衡评估器来评估推荐系统中的排名策略,在综合合成和真实数据实验中优于现有评估器。
- ICLR强化学习中的高方差是否不可避免?一项连续控制案例研究
本文探讨了强化学习实验的高方差问题,指出一些不稳定性的原因,然后提出了一种利用正则化技术来解决数值不稳定性问题的方法。经过实验发现,这种方法非常有效,可以减小结果的方差并提高学习速度。
- 机器学习基准测试中方差的考虑
通过模拟对比机器学习算法的整个基准测试过程,我们发现数据采样、参数初始化和超参数选择对结果的影响显著。进一步分析今天所用的主要比较方法,我们提出一种反直觉的结果,即在不增加计算成本的情况下,将更多的变化源添加到不完美的估计器中可以接近更理想 - 随机梯度下降的信息理论泛化界
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终 - 理解双重下降需要进行精细的偏差 - 方差分解
通过对方差进行可解释的对称分解,探讨了深度学习算法的偏差与方差之间的关系,发现随着网络宽度的增加,偏差单调下降,但方差存在非单调行为,并可以通过集成学习消除互作用导致的方差发散。
- EMNLP探索视觉文本生成中的样本方差:评估与观察
本文探讨了视觉化语言生成中的一个重要问题:多个参考数据集的样本方差如何影响模型性能,通过对几个多重参考数据集和相应的视觉语言任务进行实证研究,结果表明在实验中报告多样性是最重要的,而 CIDEr 的评价指标相对于其他指标来说具有更大的样本方 - 图卷积网络中性能退化的理解和解决
本文研究了深度图卷积网络由于 TRANS 操作引起的性能下降问题,通过提出一种节点归一化技术(NodeNorm)有效地缓解了这一问题。
- 变分方差:简单、可靠、校准的异方差噪声方差参数化
本文使用后验预测检测框架,提出了一种简单但有效的解决方案,用于同时拟合神经网络映射从随机变量到一个服从高斯分布的变量的均值和方差。这种方法有效地规范了方差,保持或优于现有模型可能性,同时显著提高了回归和 VAEs 的参数校准和样本质量。
- CVPR人脸识别中的数据不确定性学习
本研究将数据不确定性学习应用于人脸识别,实现对特征(平均值)和不确定性(方差)的同时学习,并提供了有关如何结合不确定性估计来减少噪声样本不利影响以及影响特征学习的深入分析。
- 深入探究神经架构搜索中的权重共享
本文探究权重共享对神经架构搜索的影响,发现权重共享导致模型表现差异显著,同时也可以从共享权重的超级神经网络中提取有价值的信息,并提出适度减少权重共享的方法来减少差异性并提高性能。
- BackPACK: 压缩更多到反向传播中
BackPACK 是一个建立在 PyTorch 框架之上的高效工具,它扩展了反向传播算法来提取一阶和二阶导数的附加信息,为研究人员和从业者提供了计算一些指标的新方法。
- ACL关于单词嵌入空间的维度语言特征
本文对词嵌入进行了主成分分析,并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用,并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关,从而调查了基于方差的嵌入后处理的局限性 - 相同和异构数据的本地随机梯度下降的更紧密理论
本文提出了一种新的 Local SGD 方法的分析方式,去掉了不必要的假设并详细阐述了同一和异构两种数据环境下的区别,对于这两种情况,我们提高了现有理论并提供了最优步长和最优本地迭代次数。我们的界限基于一种特定于不同数据的 Local SG - 随机线性排列的边长度之和
该研究探讨了在随机线性排列的节点中边长之和的分布情况,可用于各个领域;得到了任意图形和树的 1 阶、2 阶、方差的紧凑公式;并分析了该方差在 Erdos-Renyi 图中的演化和在均匀随机树中的缩放。
- 多样性与合作:针对少样本分类的集成方法
本文提出在 few-shot classification 问题中采用深度神经网络集成来解决分类器高方差的问题,通过引入新策略鼓励网络相互合作来提高分类性能,实验结果表明该方法在 mini-ImageNet 和 CUB 数据集上显著优于当前