关键词generalization accuracy
搜索结果 - 7
- 对比学习的最优样本复杂度
对比学习是一种学习数据表示的高效技术,研究文章主要关注对比学习的样本复杂度、维度表示和泛化准确性,并通过给出相关问题的 Vapnik-Chervonenkis/Natarajan 维度的界限来证明其在整数 p 的情况下所需的标记样本数量的几 - 线性估计器中的领悟 —— 一个可解决的模型,不需要理解的领悟
模型在训练数据拟合后依然能够泛化的现象被称为 “理解”(grokking),本文通过分析和数值实验发现线性网络在简单的教师 - 学生设置中,通过高斯输入也能够出现 grokking 现象。我们推导出模型的训练动态,并提供关于 grokkin - 深度神经网络分类器中的后训练过拟合缓解
利用后期训练基于最大边界的正则化方法有效缓解了过拟合问题,同时提高了攻击无关的泛化准确率。
- 通过逐标识位判别性特征抑制正则化神经网络训练
本文提出一种基于对抗训练框架的 Adversarial Suppression of Identity Features (ASIF) 方法,通过抑制网络对特定实例的过拟合,提高网络针对小数据集或嘈杂标签的泛化能力。
- ACL针对自然语言理解模型的捷径学习行为进行解释和缓解
本文研究表明,NLU 模型倾向于依赖于快捷特征进行预测,而不是真正理解语言。我们发现 NLU 训练集中的单词可以被建模为长尾分布,进一步提出了一种量化每个训练样例快捷程度的方法,并基于此提出了一个缓解快捷特征对模型训练的影响的框架 LTGR - ICML数据增强的潜力:领域泛化的视角
探索数据增强提高模型泛化效果的方法,从领域泛化的角度出发,揭示目前最先进数据增强方法的局限性,并探讨优化方法。结果表明,即使使用最好的数据增强技术,在训练时使用的扭曲操作也不能提供足够的鲁棒性,这表明了增强示例的未被开发的潜力。
- 使用扩散算法训练循环神经网络
本文提出了一种新的算法来训练递归神经网络,并将其与随机梯度下降进行了初步比较,结果表明该算法可以在更少的时代内实现与随机梯度下降相似的泛化准确性。该算法来源于与扩散方程相关的非凸优化理论,自然而然地产生了某些看似不相关的深度学习机制。