- 大规模图像分类卷积神经网络的神经损失函数演化
使用神经损失函数搜索(NLFS)方法,我们在卷积神经网络中发现了三个新的损失函数(NeuroLoss1、NeuroLoss2 和 NeuroLoss3),它们能够以更高的平均测试准确率取代交叉熵作为简单的损失函数,从而实现更好的泛化效果。
- 评估大型语言模型对代码可维护性的能力
通过控制代码的逻辑行数 (LLOC),LLMs 计算出的交叉熵是一种可预测可维护性的指标,但是在类级别上,仅仅以此准则可能不足以预测维护性,需要进一步研究以充分利用此信息。
- 使用模糊精确率和召回率评估分类系统对软标签的准确性
分类系统通常通过最小化系统输出和参考标签之间的交叉熵进行训练,Kullback-Leibler 散度是衡量系统与数据接近程度的自然选择。我们提出了一种新颖的方法,可以在不量化数据的情况下计算精度、召回率和 F 值,这些指标扩展了现有的度量标 - 长尾分类的类实例平衡学习
该研究提出了一种新的类实例平衡损失 (CIBL) 方法,以在训练数据的类频率不平衡时,通过重新平衡交叉熵损失和对比损失的相对贡献来获得更平衡的性能表现,并且通过使用余弦分类器,可以在更少的 epochs 中获得类似的性能表现。
- 利用 Jarzynski 等式高效训练基于能量的模型
本文介绍了一种基于 Jarzynski 平等和序贯蒙特卡洛抽样工具的改进型未校正 Langevin 算法来更有效地计算交叉熵的梯度,避免了标准对比散度算法中存在的不可控逼近问题,在高斯混合分布和 MNIST 数据集上的实验结果均显示该方法优 - 序贯实验设计中的交叉熵估计与强化学习
该研究提出了一种基于交叉熵的替代下界估计方法,其使用灵活的提议分布来近似模型参数的真实后验,不需要对比样本,并且可以在多种任务中实现更加准确的估计和学习。
- ACLMixCE: 通过混合正向和反向交叉熵训练自回归语言模型
本文提出使用 MixCE 目标函数来学习自回归语言模型,该目标函数结合了前向交叉熵和反向交叉熵,以更好地生成类人文本。实验表明,在合成数据和真实数据上,使用 MixCE 训练的模型生成的文本比使用传统方法更好。
- 交叉熵损失函数:理论分析与应用
本文研究了广泛应用的交叉熵损失函数,提出了一族损失函数 comp-sum,包括了交叉熵、广义交叉熵、平均绝对误差等。我们首次给出了这些损失函数的 H - 相容性,进一步介绍了一种新的平滑对抗 comp-sum 损失函数,并证明了它们有助于在 - 重新加权的 Softmax 交叉熵用于控制联邦学习中的遗忘
本文研究了联邦学习中数据异构性问题所导致的分类器 catastrophic forgetting 问题以及一种基于客户端个性化方法的对策 —— 对于交叉熵损失进行逐客户端的重新加权,以解决类别表示突变问题,实验证明可以缓解客户端遗忘问题和提 - CVPR基于半监督领域适应的 Patch-Mix Transformer 模型:从游戏角度出发
本文提出了一种名为 PMTrans 的模型,从博弈论的角度解决了视觉转换器在挑战性无监督领域自适应(UDA)任务中的问题,通过提出一种基于 ViT 的模块 ——PatchMix 的方法来有效地建立中间域,并利用特征和标签空间中的两个半监督 - 解决无源领域适应中的质心假设冲突
提出了一种新的解决策略,将源域的知识迁移到没有标签的目标域中,通过伪标签和类原型对齐熵最小化的目标,解决了伪标签和最小熵交叉的矛盾,实验证明新方法在三个领域适应数据集上均有有效性且可以提供最新架构的最先进结果。
- CVPR面向长尾视觉识别的平衡对比学习
本研究提出一种适用于长尾数据的平衡对比学习方法 (BCL),通过均衡梯度贡献和多类别出现于每次 mini-batch 的方式,使分类器实现更好的优化,并在多个长尾数据集上超过了现有竞争对手 (ClFAR-10-LT,CIFAR-100-LT - 循环焦点损失
本文提出一种新的周期性的焦点损失函数,证明其是比交叉熵 softmax 损失函数或者焦点损失函数更普适的损失函数,并推出了数个实验证据来证明周期性的焦点损失函数对于平衡,不平衡或长尾数据集都提供了更好的性能。
- ICML神经网络分类器作为互信息评估器
本文提出了一种使用交叉熵和 softmax 作为互信息评估器的神经网络分类器的新视角,并且在数据集不平衡时,开发了一种新的 softmax 形式,该形式可以将分类器转换为互信息评估器。实验结果表明,该形式可以提高分类准确性,特别是对于不平衡 - 使用线性教师研究神经网络中的学习
本文证明了,通过 SGD 训练具有 Leaky ReLU 激活函数的两层神经网络,可以在全局最小化交叉熵的同时学习线性可分数据,且学习的网络具有较为简单的近似线性决策边界。同时,本文提出了一种可以发现权重聚类的优化条件,并通过实验证明了理论 - 损失函数与 T - 范数之间的关系
本文提供了一种新的解释 cross-entropy loss 的方法,并基于此推导出一种新的 loss 函数类,该类函数可以应用于任何有监督的学习任务中,提高收敛速度。
- 使用分段对数和指数不等式保证单变量混合体的 Kullback-Leibler 散度
该研究提出了一种快速通用的方法,可以对混合模型的熵、交叉熵和 KL 散度的闭合形式下限和上限进行算法生成。
- ACL语言模型平滑技术的实证研究
本篇论文比较了多种平滑技术在语言模型领域的效果,并针对训练数据大小、文本语料和 n-gram 顺序等因素对各种方法的表现进行了研究,同时引入了两种新的平滑技术,均表现优异。