generalization performance | BriefGPT

关键词generalization performance

搜索结果 - 266

EMNLPPAC 调谐：基于 PAC 驱动扰动梯度下降的细调预训练语言模型
PAC-tuning 通过两个阶段的微调和噪声注入修改梯度，成功应对了微调任务的挑战，并在 5 个基准测试任务中表现优于强基准方法，从而进一步证实了在目前使用 Adam 优化器进行训练的任何其他设置中应用 PAC 训练的潜力。
PDF8 months ago
多视图图对比学习的提示调优
我们提出了一种多视角图对比学习方法，并为其设计了提示调整方法，以缩小预训练和下游任务之间的差距。
PDF9 months ago
深度学习中的分离权重衰减的 Adam 系列方法
本研究探讨了一类广泛的 Adam 系列方法在最小化二次正则化非光滑非凸优化问题中的收敛性质，特别是在训练带有权重衰减的非光滑神经网络的情况下。通过引入修正权重衰减的 AdamW 方法，我们提出了一种新颖的具有分离权重衰减的 Adam 系列方
PDF9 months ago
从稳定到混沌：分析二次回归中的梯度下降动态
通过对大步长梯度下降在二次回归模型中的动力学进行全面调查，揭示了动力学可以由特定的三次映射来描述，并通过细致的分叉分析划分了五个不同的训练阶段，同时研究了非单调和非发散阶段的泛化性能。
PDF9 months ago
随机特征的广义化性能改善的最优非线性
通过对等效模型的参数进行研究，本文通过优化非线性激活函数，实现了对给定监督学习问题的改善，验证了这些优化的非线性函数在回归和分类问题中比常用的非线性函数（如 ReLU 函数）具有更好的泛化性能，并且缓解了所谓的 “双峰下降” 现象。
PDF9 months ago
无监督语音增强的后验采样算法与递归变分自动编码器
本文中，我们提出了基于循环变分自动编码器（RVAE）的无监督语音增强问题。我们使用高效的采样技术解决了测试时间中涉及的计算复杂度问题，并通过与传统方法进行比较实验证明了这种方法在计算效率和总体性能方面的显著优势。
PDF10 months ago
降低数据集蒸馏中的架构过拟合
通过提出一系列的方法，本文解决了基于特定网络结构训练的合成训练数据在其他网络结构中训练时性能变差的问题，从而提高了在不同网络结构上通过合成训练数据的泛化性能。通过广泛的实验证明了我们的方法的有效性和通用性。
PDF10 months ago
丢失模型下敌对过量风险的非渐近边界
我们提出了一种通用方法来评估基于对抗损失的鲁棒估计在错误模型下的性能，并研究了对抗估计器的泛化性能。
PDF10 months ago
可学习的语义数据增强的细粒度识别
通过特征级别的数据增强和协方差预测网络，我们提出了一种改善细粒度图像识别的方法，可以有效区分细分类别，提高泛化性能。
PDF10 months ago
改进社交机器人导航的强化学习训练方式
自主移动机器人在人类空间中导航必须遵守社会规范。本研究提出了一种使用课程学习来改善强化学习社交导航方法的泛化性能的方法。通过使用多种环境类型和多种动力学模型对行人进行建模，逐步增加训练的多样性和难度。研究结果表明，与之前的训练方法相比，使用
PDF10 months ago
近似等变图网络
图神经网络 (GNNs) 和欧几里德卷积神经网络 (CNNs) 的等变性对称性不同，本篇论文侧重于探讨 GNNs 的主动对称性，通过对信号在固定图上的支持进行学习，将近似对称性形式化为图粗化，提出了一个偏差 - 方差公式来量化损失表达性与学
PDFa year ago
ICCV空间和光谱一致的深度功能映射
基于循环一致性，在非刚性形状匹配中，通过在频谱和点对点表示之间设计无监督的深度功能映射方法，实现了状态良好、抗扭曲性能和优越的泛化性能。
PDFa year ago
基于深度强化学习的加密货币自动交易集成方法
我们提出了一种集成方法，以提高在高度随机的日内加密货币组合交易环境中通过深度强化学习算法训练的交易策略的泛化性能。我们采用了一种模型选择方法，对多个验证期进行评估，并提出了一种新颖的混合分布策略，以有效地集成所选模型。我们提供了关于细粒度测
PDFa year ago
MM过参数化卷积神经网络中的特征学习机制：局部核归一化
深度神经网络具有自动从原始数据中学习相关特征的能力，但完全连接（FC）和卷积架构（CNN）中的特征学习方式不同。本研究通过理论和实验证明了有限宽度 FC 网络的泛化性能可以通过选择适当的高斯先验来获得无限宽度网络的结果，而具有卷积隐藏层的架
PDFa year ago
FedSoup: 通过选择性模型插值提高联邦学习中的泛化性和个性化
通过选择性插值模型参数的联邦模型汤方法，优化本地和全局性能之间的平衡，以减轻过拟合并改善模型的泛化性能。
PDFa year ago
元学习任务采样学习
通过对不同的元学习方法、任务采样器和少样本学习任务进行实验，本文得出三个结论：首先，没有通用的任务采样策略可以保证元学习模型的性能；其次，任务多样性可能导致模型在训练过程中出现欠拟合或过拟合的情况；最后，模型的泛化性能受到任务差异、任务熵和
PDFa year ago
朝着最佳神经网络：样本拆分在超参数选择中的作用
本文针对神经网络在实际应用中的表现提出了一个新理论，通过发现在神经网络模型构建过程中的一个常见做法 —— 样本分裂的奥秘来探究其有效性，该理论表明，从样本分裂中得出的最佳超参数能够使神经网络模型渐近地最小化预测风险。我们在不同的应用场景和网
PDFa year ago
图像分类中针对分布偏移的实时适应性评估
通过建立一个基准测试来评估和比较测试时间调整方法在提高模型稳健性和泛化性能方面的有效性，我们提供了一个可靠的评估方式，并探索了不同测试时间调整方法与不同网络骨干的兼容性。
PDFa year ago
带有跳跃连接的贝叶斯卷积神经网络的自由能
本文研究了卷积神经网络在贝叶斯学习框架下使用残差网络和跳跃连接的效果，并表明跳跃连接可降低过度参数化而不牺牲泛化性能。
PDFa year ago
自然梯度微调有效去除后门
本文提出了一种名为 NGF 的新颖的去后门深度神经网络的技巧，通过 fine-tuning 一个特定的层，在使用 Fisher 信息矩阵的清洁数据分布感知正则化器的帮助下，成功地消除了各种后门攻击，提高了通用性能。
PDFa year ago