- CVPR基于语义感知的虚拟对比约束学习:适用于小样本类递增学习的方法
通过引入虚拟类别的概念,我们提出了一种基于语义感知的虚拟对比模型(SAVC),显著提高了基础类别的分类效果和新类别的泛化能力。
- 强健性到偶然相关性的提升改进了语义外分布检测
该论文提出了一种利用 Nuisance-Randomized Distillation 算法的 OOF 检测方法,通过替代使用经验风险最小化和交叉熵损失训练的分类器,实现独立于噪声值的特征表示,并成功解决了共享噪声错误检测的问题。
- 单智能体强化学习的尺度定律
研究表明,生成建模中的交叉熵损失随模型大小和训练计算能力的增加呈幂律加常数比例变化,但在强化学习中,性能目标的变化不一定平稳,因而提出了内生表现作为性能度量标准,通过系列模型中达到所需返回的最小计算量来定义,研究表明内生表现同样随模型大小和 - 语言感知的视觉与语言基础模型软提示
本文介绍了一种软提示学习的方法,用于 Vision & Language 模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离,进而提高模型性能,并能够训练虚拟类。在 11 个数据集上进行的广泛评估表明,该方法显著 - 增加逻辑回归边缘的一对多损失切换以提高对抗性鲁棒性
本文通过对 logit margins 的研究,提出了 SOVR 方法来提高 Adversarial training 的威胁鲁棒性并且在实验中展示了其效果。
- ICML通过边界提升构建强大的集成模型
该论文介绍了一种通过 margin-boosting 来学习最大 margin 的神经网络集成防御方法,并提出了一种 margin-maximizing cross-entropy (MCE) 损失函数,实验证明用 MCE 代替标准的 cr - 用于演员 - 评论家算法中有效策略更新的政策梯度定理以外的方法
本文针对一些弊端特征,通过引入新的策略更新方法并证明其全局最优的收敛保证,提出了一种优化智能体策略的实用性改进,相较于常规的策略跟新,更新速度更快,关键在于其具有结构上的非对称性。
- AAAI通过数据高效训练和减小 CNN 偏差在红外图像上进行背景不变分类
本研究提出了一种新的两步训练过程,称为 split training,旨在减少卷积神经网络中对背景纹理的学习,通过使用均方误差损失和交叉熵损失,对简单 CNN 架构和 VGG 及 Densenet 等多路硬件使用的深度 CNN 架构进行训练 - ICML从对数损失分数中推断标签
本文探讨了如何从单个(或多个)log-loss 得分中推断数据集的标签,我们通过引入数论和组合数学的思想提出了对抗性侦查方法进行实验模拟,可成功推断数据集的标签。
- ICML测试时对手存在下交叉熵损失的下限
本文探讨了在存在测试时对抗情况下的分类器损失的最优下限和对应最优分类输出的确定,并使用自适应算法以高效地计算此下限,进而将其作为诊断工具来确定当前鲁棒性训练方法的有效性,并探讨使用最优分类输出作为软标签以经验地改善鲁棒性训练。
- 正交投影损失
文章提出了一种新的损失函数 OPL,以加强交叉熵损失函数在特征空间中的类内聚类和类间分离,这种方法在图像识别等任务中取得了良好的效果,并且具有更好的鲁棒性。
- 半监督分类的图卷积:改进的线性可分性和越界泛化
该研究探讨了在图形信息存在的情况下,基于图卷积进行数据分类的方法,发现图卷积扩展了数据线性可分的范围,并且在最小化交叉熵损失后,得到的线性分类器具有很好的泛化能力。
- 交叉熵损失下的神经崩溃
研究了在 R^d 的单位超球面上具有 n 个特征向量的交叉熵损失函数的变分问题,证明了当 d≥n-1 时,全局最小值由等角张紧四面体框架给出,证明了神经网络崩塌的行为,并证明了随着 n 趋向于无穷大而点的最小化将在超球面上均匀分布,并展示了 - 单 GPU 上超过 1K 类的语义分割扩展
本文提出了新的训练方法,通过降低分割模型输出的空间复杂度和近似地计算误差概率来扩展语义分割模型以适应更多的语义类别,这个方法适用于任何现有的语义分割模型,而不会增加内存开销,实验结果表明,这种方法可以在仅使用一块 GPU 的情况下实现 Ci - 自回归生成建模的规模定律
通过研究生成式图像建模、视频建模、多模式图像与文本模型和数学问题求解等四个领域,我们发现交叉熵损失的实证缩放定律,指出自回归变压器在性能上平滑提高,其最佳模型大小还受到计算预算影响,同时也寻找到了特定领域的进一步扩展规律。这些结果加强了缩放 - EMNLP计算上高效的命名实体识别标注器的受限解码
通过对输出进行限制,可以训练出一个标注器,其与 CRF 相比可以实现两倍的交叉熵损失速度,差异在 F1 方面不具有统计学意义,从而有效消除了对 CRF 的需要。
- ICLR神经网络分类任务中使用平方误差与交叉熵训练的结构评估
本文提供证据表明,对于 NLP 和 ASR 任务,使用方块损失函数进行神经网络训练,可以获得比交叉熵更好的效果,并且可以提高计算资源的利用率。我们认为,使用方块损失函数需要成为现代深度学习最佳实践的一部分,与交叉熵在平等基础上竞争。
- ECCV度量学习的统一互信息视角:交叉熵 vs. 两两损失
通过理论分析,该研究证明了交叉熵与多个已知的成对损失之间的关系,并提出将交叉熵最小化作为近似边界优化算法,从而避免了成对样本采集等复杂的优化技巧。研究通过在四个标准的深度度量学习基准测试中获得最新的结果,超越了最近和复杂的 DML 方法。
- 神经语言模型的缩放律
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
- CVPR利用深度网络的类层次结构改进失误
本篇论文提出了使用图距离和交叉熵损失的两种简单方法来解决深度神经网络中错误严重性的问题,并在两个大型具有复杂类层次结构的数据集(tieredImageNet 和 iNaturalist'19)上优于先前的方法。