通过使用离散时间动力系统的 Koopman 算子理论,我们发现在线镜像和梯度下降的 Koopman 谱高度重叠,并提供了第一个关于机器学习方法优化选择的泛化特征化,包括学习率,批量大小,层宽,数据集和激活函数等多个因素的影响。
Feb, 2023
本文旨在解决使用神经网络嵌入模型学习非常大的语料库相似度函数的问题。我们提出了一种新的高效方法,通过添加全局二次惩罚项并将其表达为两个广义格拉姆矩阵的矩阵内积来训练这些模型,并开发了方差减少方案来提高估计质量。我们进行了大规模实验,结果表明与传统抽样方法相比,训练时间和泛化质量都有显着改善。
Jul, 2018
该研究介绍了一种基于欧式平滑度作为模式质量标准的无监督熵正则化迭代优化问题,能够高效地从高维数据中提取出稀疏的、经过排列的低维平滑模式,有效地实现了降维和特征提取,且在实际应用中能够识别同时最小化破产风险的平滑转换模式。
Jun, 2023
本文研究神经网络学习的早期阶段,分析了神经网络在此期间的变化,发现深度网络在使用随机权重重初始化时不具有稳健性,但利用模糊输入或辅助自监督任务进行预训练即可近似监督网络的变化。
Feb, 2020
本文提出通过增加可学习的随机图来维护和重放以前样本的小型陈情表记忆,来解决非静态分布中可用数据的持续学习问题的方法。在多个基准数据集上的实证结果表明,该模型持续胜过最近提出的基线方法,用于无任务的持续学习。
Jul, 2020
该研究发现对于对比自监督 (SLL) 来说,那些与其他示例具有最相似增强的样例在学习表示方面贡献最大。此外,研究还表明,对正在进行的任务性能不会产生负面影响的情况下,可以安全地排除 CIFA100 和 STL10 分别的 20% 和 40% 示例。
本文介绍了一种利用训练批次的算法,将向量的成对距离提升到成对距离矩阵,从而以学习结构化预测目标的方式来优化最先进的特征嵌入方法,同时在 CUB-200-2011、CARS196 和 Online Products 数据集上进行实验,证明在所有实验的嵌入尺寸上都能够显著提高。
Nov, 2015
本文研究表明,随着参数数量的增加,深度神经网络会呈现出 “双下降” 的特性,同时,随着训练时间的增长,也存在着 “按时间下降的双重下降” 效应,这在实践中导致训练时间过长,基于验证表现的早停可能导致非最优泛化。作者提出了一种可以从理论上解释 “按时间下降的双重下降” 的模型,并提供了两种方法来消除这种效应。通过理论分析和实验验证表明,消除缓慢学习特征或修改训练方式可以消除 “按时间下降的双重下降”,并且改善模型泛化性能。
Aug, 2021
该研究提出一种自动切分权重计算的方法,避免了权重变量维度不可切分而导致的性能和可扩展性问题。研究表明,这种技术在典型的图片和语言模型上都能显著提高性能,并帮助我们在 Google 的 MLPerf 0.6 竞赛中获得了表现最好的结果。
Apr, 2020
该研究提出了一种使用参数化相似性度量的方法,将其作为具有特定稀疏结构的秩一矩阵的线性组合,此方法可以高效地处理高维稀疏数据,并通过近似的 Frank-Wolfe 过程优化参数以满足训练数据上的相对相似性约束,实验结果表明该方法具有分类、降维和数据探索的潜力。
Nov, 2014