本文提出了一种直接损失最小化的方法来训练深度神经网络,特别适用于应用特定的指标,包括提出了新的动态规划算法来高效计算权重更新,最终在行动分类和目标检测方面表现优秀,特别是在存在标签噪声的情况下。
Nov, 2015
研究神经网络中的遗忘问题,提出了一种不同于以往的方法来解决该问题,且不会使用源域的信息,此方法在减少遗忘源域信息方面非常有效,同时实验表明使用该方法可以提高网络在识别率等方面的性能。
Jul, 2016
研究了不同损失函数选择对深度神经网络及其学习动态的影响,证明了L1和L2损失函数是深度网络分类目标的合理选择,并提出两种新的损失函数作为现有损失函数的可行替代品。
Feb, 2017
研究神经网络在单分类任务训练中的学习动态,发现在缺乏明显分布偏移的数据情况下,存在相关遗忘现象,某些样例更容易被遗忘,而基于遗忘动态可以从训练数据集中省略部分例子却仍能保持最佳泛化性能。
Dec, 2018
本研究提出了一种称为 flooding 的解决方案,通过限制训练误差在一个合理的小值范围内,以达到更好的泛化效果,并在实验中证明了有效性。
Feb, 2020
该研究提出了一种学习回顾的训练框架,可以利用过去的学习信息指导神经网络的训练,提高准确性、校准性和稳健性,并在多个基准数据集上进行了广泛的实验以证明其优越性。
Dec, 2020
通过梯度分解的方式,实现一个新的连续学习方法,在保留之前任务特定知识的同时,促进共同知识整合,避免了梯度大小变化的影响并实现了当前领域最佳结果。
May, 2021
研究无限深度和无限宽度下Residual神经网络中梯度下降和凸优化的等效性,得出当神经网络足够大时,ResNet的训练可以得到几乎没有误差的近似解决方案。
通过调查现有的方法及其在预训练模型上的表现,我们观察到Generic Pre-training方法隐含地减轻了多任务学习中遗忘现象的影响,因为预训练权重看起来通过导致更宽的极小值来缓解遗忘现象,基于这个发现,我们建议联合当前任务的损失和损失基底锐度的优化方法,以在顺序微调期间显式地鼓励更宽的基底,在多种设置中实现与最新技术的性能相当的顺序连续学习,而无需保留随任务数缩放的内存。
Dec, 2021
本研究提出了一种新的即时参数更新方法,通过消除每层计算梯度的需要来加速学习、避免梯度消失问题,并在基准数据集上优于最先进的方法,为高效有效的深度神经网络训练提供了一个有希望的方向。
Aug, 2023