强化区分度的损失函数以提高表示学习
使用统计和信息理论的已建立原则,我们展示了深度神经网络中对无关因素的不变性等同于学习表示的信息最小性,而叠加层和在训练期间注入噪声自然偏向于学习不变表示。我们进一步分解了训练过程中使用的交叉熵损失,强调了内在的过拟合项。我们提出通过两种等效方式来限制这样的项的正则化损失:一种是使用 Kullbach-Leibler 项,它与 PAC-Bayes 视角相关;另一种是使用权重中的信息作为学习模型复杂度的度量,从而为权重提供了一种新的信息瓶颈。最后,我们展示出在神经网络中学习到的表示组件的不变性和独立性在权重中的信息上限和下限是有界的,因此在训练过程中自动优化。该理论使我们能够量化和预测使用我们的正则化损失时随机标签下欠拟合和过拟合之间的尖锐相变,我们通过实验证实了这一点,并阐明了损失函数的几何形状、学习表示的不变性属性和泛化误差之间的关系。
Jun, 2017
这篇论文介绍了一种在深度学习背景下具有较大边界的新型判别性损失函数,通过提高神经网络的判别能力,即类内紧凑性和类间可分性,来优化特征空间,同时通过数学分析关系、设计策略和研究泛化误差,提高模型的测试准确性。
May, 2024
本研究探讨了在最小化损失时,编码器输出空间内所寻求的类别性空间几何是否存在本质差异。同时提供实证证据表明,两种损失函数的优化行为存在显著不同,这将对神经网络的训练产生影响。
Feb, 2021
在深度学习中添加一种正则化项,即注入信息失真噪声,可以更好地强制执行最优表示的关键属性。信息 dropout 是对 dropout 的一种改进,可以更好地适应数据和网络结构,同时可以生成区分度良好的表示。
Nov, 2016
从多种上下文环境的观察中提取现实的抽象表示是深度学习的一个追求目标之一。本文采用信息论的视角来研究这个问题,提出了一种新颖的正则化方法,称为 CLINIC 损失,通过大量的数值实验证明了这种方法在解缠表征与准确性之间取得更好的平衡,并且在不过于限制解缠任务的情况下具有更好的普适性。
Oct, 2023
本文提出了一种判别损失函数,与生成式训练标准不同,该函数使用正确和竞争类之间的负对数似然比,极大地提高了在 CIFAR-10 图像分类任务中的性能。
Apr, 2018
本文提出了针对有标签噪声(即不正确的数据)的深度神经网络训练方法,通过引入一个新增的损失函数 DiscrimLoss 可以增强模型对易样本和难样本(包括困难和错误样本)的学习程度,并且能够动态自适应地模拟课程学习的主要原则,多种实验结果证明本文方法在存在不同的噪声级别时具有多样性和有效性。
Aug, 2022
本文探讨了在图像分类任务中使用多种损失函数和正则化器去提高测试精度,但是并不清楚这些损失函数是否可以学习出更好的下游任务表示。作者研究了训练目标的选择如何影响在 ImageNet 上训练的卷积神经网络的隐藏表示的可转移性,结果表明选择不同的损失函数会导致不同的结果,进一步指出了在为原始任务学习不变特征和为转移任务学习相关特征之间存在一种折衷。
Oct, 2020
本研究提出了一种基于信息论的方法来衡量两张图片之间的相似度,能够学习出轻量的 critic 来校准特征空间,从而实现对应空间的图像重建和非对应空间的图像排斥,这种方法能够代替 L1 loss 用在有或者没有 GAN loss 的基于监督的图像合成模型中,从而显著提升了合成图片的感知逼真度。
Nov, 2021