- AAAI何时生长?深度神经网络中层生长的风险感知策略
神经生长是将小型神经网络扩展到大型网络的过程,其优化生长时机的研究相对较少。本研究揭示了神经生长固有地具有正则化效应,其强度受生长时机政策的影响。为解决欠拟合和过拟合风险,本文提出了一种基于风险感知的生长时机策略,在潜在的欠拟合和过拟合风险 - Medi-CAT: 医学图像分类的对抗对比训练
这篇论文研究了在医学图像数据集中,由于欠拟合和过拟合现象,无法很好地工作的深度学习模型问题,并提出了一种名为 Medi-CAT 的训练策略,采用了大型预训练视觉变换器以克服欠拟合,并采用对抗性和对比性学习技术以防止过拟合,实验结果表明,相比 - Seq2seq 模型中的 Token 级拟合问题
研究表明,在自然语言处理方面,序列到序列 (seq2seq) 模型的早停训练会导致 token 级别出现过度拟合和欠拟合的问题,并通过实验和分析找出了对 token 级别拟合的三个主要影响因素。
- 稳健损失函数的课程视角
本文研究了鲁棒损失函数在标签噪声下的训练动态,通过重新表示大多数损失函数为具有相同类得分边界和不同样本加权函数的形式,提供了对训练动态的直观分析,证明了简单的修复可使欠拟合的鲁棒损失函数竞争力与最先进的方法相当,而训练时间表可以明显影响噪声 - ICLR动态更新到数据比率:最小化世界模型过度拟合
在强化学习等连续数据环境中,通过在未使用的一小部分数据上检测欠拟合和过拟合从而动态调整数据更新比率的新方法,比默认设置比更好的平衡欠拟合和过度估计,消除了手动设置超参数的需要,并使模型具有更高的健壮性,同时减少了必要的调试量。
- Dropout 减少过拟合
本文研究表明,与只在训练后期使用 dropout 的模型不同,在训练开始时使用 dropout 可减弱梯度方向差异和限制单个批次对模型训练的影响,从而更好地提高模型的泛化精度。
- 最大边缘损失学习不平衡数据集
本文设计了一种新的最大边距 (MM) 损失函数来解决类不平衡数据中存在的分类不平衡问题,并探讨了两种基于最大边界的决策边界位移方法在 LDAM 训练日程上的表现。
- DAGAM: 数据生成与修改的数据增强方法
本研究介绍了三种自然语言数据增强方法,包括基于生成模型的数据增强 (DAG)、使用文本修改技术的数据增强 (DAM) 以及结合 DAG 和 DAM 技术的数据增强 (DAGAM),研究表明这些方法能够在六个文本分类基准数据集上提高模型性能, - ICCV不平衡深度学习的普洛克鲁斯特训练
本文提出了一个新的学习策略,来有效地解决在使用类不平衡数据时神经网络容易出现欠拟合和过拟合问题的困扰,该策略在小批量中混合了主类数据和其它数据的特征,旨在削弱主类数据的特征以防止神经网络优先拟合主类数据的情况,从而实现了类之间的训练过程平衡 - 通过局部线性化改进贝叶斯神经网络的预测
本文提出了一种基于广义高斯牛顿近似方法的贝叶斯神经网络预测方法,将原始预测模型线性化为广义线性模型(GLM)后,用于后验推理和预测中,解决了拉普拉斯近似方法下的欠拟合问题。在多个标准分类数据集上以及外部分布检测中得到了验证。
- ICML深度学习中带有噪声标签的标准化损失函数
本文研究如何在存在噪声标签的情况下训练精确的深度神经网络。我们提出了一种名为 Active Passive Loss(APL)的框架来构建稳健损失函数,其结合了两种互相促进的稳健损失函数。实验表明,我们的新的损失函数家族可以在大噪声率下始终 - 注意力神经过程
该研究提出了一种带有注意力机制的神经流程方法,以解决神经流程的欠拟合问题,从而更准确地预测给定上下文情况下的输出条件分布。
- 重新取样的先验对变分自编码器的影响
提出了基于学习接受 / 拒绝采样的 LARS 方法,该方法可以使用具有学习接受函数的拒绝采样构建更丰富的先验,从而改善了变分自编码器(VAE)的性能,并且还可以与现有的灵活先验定义方法相结合以进一步提高性能。
- 神经网络超参数的纪律性方法:第 1 部分 —— 学习速率、批量大小、动量和权重衰减
本文介绍了几种有效的设置超参数的方法,以显著减少训练时间并提高性能。具体来说,报告展示了如何检查训练验证 / 测试损失函数以获取欠拟合和过拟合的微妙线索,并提供了朝向最佳平衡点的指南。同时还讨论了如何增加 / 减少学习率 / 动量以加速训练 - 稀疏高维数据上基于推理网络的学习挑战
本文研究基于深度神经网络的非线性因子分析中的参数估计问题,探讨了大规模、稀疏、高维数据中的欠拟合问题,提出了受随机变分推断启发的迭代优化方法及改进的稀疏数据表示方法,实现了在文本计数数据集上的最新结果和在 Top-N 推荐任务上的优异表现。
- 大型神经网络浪费容量
该研究发现,一些较大的神经网络在增加容量以减少欠拟合方面失败,这可能是由于训练误差方面容量的收益急剧减少导致的,指出了优化方法(一阶梯度下降)在这种情况下失败。通过直接解决这个问题,可以通过优化方法或参数化选择来改善需要大容量的大型数据集上