该研究通过对深度神经网络的训练动态、神经元和层级表示的广泛实证研究,尝试辨别深度学习系统中隐含的聚类能力、机制和超参数,评估它们对解释这些系统的泛化能力的相关性,从而阐述了先验知识在机器学习设计中的重要性。
Mar, 2022
本研究探讨深度学习中的泛化现象,并发现隐式正则化通过优化方法在深度学习模型的泛化和成功方面起着关键作用,我们进一步研究了不同的复杂度度量,以确保泛化并解释了优化算法如何隐含地正则化这些复杂度度量,为了更好地研究神经网络中的不变量,我们提出了复杂度度量和优化算法,并在许多学习任务上进行了评估。
Sep, 2017
研究探讨神经网络训练中的设计选择如何影响隐藏表示中形成的聚类,发现数据集的属性以及网络内部结构对聚类性能有重要影响,而使用预训练模型进行聚类时,预先训练于子类标签的模型表现出更好的聚类性能,而比较意外的是,视觉变换器的子类聚类能力比 ResNet 低。
Nov, 2023
本文探讨了全连接前馈神经网络中隐藏节点的激活模式,提出了从两个信息处理系统,即连续性和离散性的角度来看待这种网络分类能力的新方式,并且重点突出了这两者搭配的重要性,为深度学习中神经网络的泛化能力提供了新的思路。
Jan, 2020
本文介绍协作学习的概念,利用多个网络的分类器头同时在相同的训练数据上进行训练,实现多任务学习和知识蒸馏,并展示其在 CIFAR 和 ImageNet 数据集上的实验证明了协作学习显著降低了泛化误差并增加了对标签噪声的抗干扰能力。两个重要机制:多头分类器共识提供补充信息和共享中间级别表示,既减少了训练计算复杂度,又促进了对共享层的监督。
May, 2018
文章提出了实验结果,证明其他形式的容量控制与网络规模不同,在学习多层前馈网络中起着中心作用。 作者通过类比矩阵分解来论证这是一种归纳偏差,有助于揭示深度学习的内在机理。
Dec, 2014
该研究探讨了深度神经网络中过拟合问题的原因,并提出了基于流形假设的正则化方法,包括有标签和无标签情况下的流形正则化,实验证明这些方法可以显著提高模型泛化性能。
Nov, 2015
本研究表明,最近的一些判别模型等价于 K-means,并且证明对于常用的逻辑回归后验概率,通过交替方向方法最大化 L2 正则化的互信息等价于软化和正则化的 K-means 损失。这一理论分析不仅将最近的一些判别模型直接联系到了 K-means,并且提出了一种新的软化和正则化的深度 K-means 算法,在几个图像聚类基准测试中表现出色。
Oct, 2018
本文提出了一种新的方法,通过利用信息丰富的潜在嵌入及其高内类相关性,从同质样本的子集中创建虚拟嵌入,并使用这些虚拟嵌入来降低它们在潜在嵌入空间中的类间相似度,以达到模型规范化的目的且不需要昂贵的超参数搜索,并在两个流行和具有挑战性的图像分类数据集(CIFAR 和 FashionMNIST)上验证了方法的有效性。
Apr, 2023
我们提出了一种新的深度聚类网络,利用信息理论差异度量的鉴别能力,提出了一种新颖的损失函数,避免了聚类分区的退化结构。
Feb, 2019