cross-entropy loss | BriefGPT

关键词cross-entropy loss

搜索结果 - 61

通过 $F_β$- 得分将多类神经网络分类器准则与任务性能对齐
我们提出了一种方法，该方法可以为多类神经网络分类器提供训练和评估的一致性，使其与预期的特定应用性能标准相一致，并通过使用软集混淆矩阵和分段线性逼近的概念，将二元情况扩展到多类情况。
PDFa month ago
时间序列预测的层次分类辅助网络
我们提出了一种使用交叉熵损失对时间序列数值进行分词训练预测模型的新方法，通过整合多层次的高熵特征，使用层次感知注意模块，分配类标签并使用不确定性感知分类器来减轻预测中的过度自信，同时通过层次一致性损失保持预测结果的一致性。在多个真实世界数据
PDFa month ago
使用软目标进行条件模型的噪声对比估计
通过提出一个新的损失函数，本文解决了 InfoNCE 无法与软目标结合使用的限制，并在常见基准测试中表现优异，包括 ImageNet。
PDF2 months ago
关于 LLMs 中的分词理论
通过研究变压器在简单数据生成过程上的行为，我们探讨了词汇标记的理论视角，发现词汇标记对于变压器模型的训练是必要的，并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。
PDF3 months ago
使用对比集的大型语言模型评估：一种实验方法
在自然语言推理领域中，交叉熵损失度量被广泛应用于多输入文本分类任务，但该度量方式在有效评估模型理解语义蕴涵能力方面存在不足。本研究引入一种创新技术，通过自动替换动词、副词和形容词的近义词来产生斯坦福自然语言推理数据集的对比集，以评估模型表现
PDF3 months ago
多类别标签噪声下的自我蒸馏和部分标签学习的理解
自蒸馏是使用教师模型的输出来训练学生模型的过程，本研究在多类别分类中从理论上探讨了自蒸馏，研究了多轮自蒸馏和使用精炼教师输出的自蒸馏，其灵感源于部分标签学习（PLL）。我们通过为学生模型的输出推导出一个封闭形式解，发现自蒸馏在具有高特征相关
PDF5 months ago
ACL自注意力中的各向异性
通过实证观察，本文展示了基于 Transformer 的语言模型和其他模态下的 Transformer 存在的角度距离接近的问题，即各向异性问题。
PDF5 months ago
基于无约束 ReLU 特征模型的交叉熵类不平衡学习的神经倒塌
在该研究中，我们将神经坍缩现象推广到不平衡类别的交叉熵损失下，证明了虽然类内特征会坍缩，但类均值将收敛到长度不同的正交向量结构，并发现分类器权重与类均值的缩放和居中相关，这扩展了在平衡类别设置下的神经坍缩现象。通过在实际架构和数据集上进行实
PDF6 months ago
融合模型的弱对齐监督改善端到端 ASR
本文旨在创建弱对齐监督以辅助端到端建模，在已有的混合 ASR 系统中产生训练音频的三音素对齐。我们在编码器的某一层上使用这些对齐创建交叉熵损失。与一般的一位有效交叉熵损失或带有损失加权的方法不同，我们在此使用带有标签平滑参数的交叉熵损失来规
PDF7 months ago
无监督表示学习辅助半监督元学习
通过一次性无监督元学习方法，利用增强样本作为查询集来学习训练样本的潜在表示，并通过温度缩放的交叉熵损失在元学习的内循环中防止过拟合。该方法是模型无关的，能够提高任何元学习模型的准确性，并通过在初始化和快速调适阶段采用目标有监督元学习的方式，
PDF8 months ago
有限域上的知识传递的基本限制
通过特权信息的不同级别，加速从教师到学生分类器的知识传递效率并且使学生能够获得课程上的优势信息。
PDF9 months ago
弱监督语义分割中的小物体重要性
弱监督语义分割方法在不具备像素级标签的训练数据下，通过只有图像级标签进行像素级分类。本文通过提出新的评估指标和收集一个大小平衡的评估集，揭示了现有弱监督语义分割方法在捕捉小物体方面的困难，并提出了一个大小平衡的交叉熵损失函数和适当的训练策略
PDF9 months ago
无约束特征模型下的神经塌陷问题
本研究通过在不受约束的特征模型背景下，研究了交叉熵损失函数下不平衡数据的神经崩溃现象，发现特征向量在同一类中收敛为相同的平均向量，并确定了少数类崩溃的临界阈值，并且结果表明，数据大小不平衡的影响随着样本大小的增长而减小。实验结果验证了理论分
PDF10 months ago
一石二鸟：音频字幕系统是否也可用于音频文本检索？
通过探索未经微调的 AAC 系统，该研究调查了 AAC 和 ATR 之间的关系，发现使用标准的 Cross-Entropy 损失值可以实现良好的 ATR 性能。
PDF10 months ago
发挥正则化策略在具有噪声标签的学习中的潜力
本研究表明，使用交叉熵损失结合常用的正则化策略，如学习率下降、模型权重平均和数据增强等，可以优于最先进的方法，在处理学习噪声标签的挑战时，采用一种正则化策略组合可能比复杂的算法更有效。
PDFa year ago
揭开年龄估计之谜：基于深度学习方法的面部年龄估计的比较分析
对于年龄估计任务，设计专门的方法是不必要的，使用交叉熵损失的标准方法已足够。本文旨在通过在统一可比较的环境中评估最先进的年龄估计方法来解决基准测试的缺点。结果表明，与年龄估计方法的选择相比，面部对齐、面部覆盖、图像分辨率、图像表示、模型架构
PDFa year ago
解耦的 Kullback-Leibler 散度损失
通过改善 Doupled Kullback-Leibler Divergence 损失函数的对称性和引入全局信息进行一致性正则化，我们提出了更好的 IKL Divergence 损失函数，成功地实现了对抗训练和知识蒸馏任务的最新性能，具有重
PDFa year ago
IJCAI通过密度估计改进异构模型重用
本文探讨了多方学习，旨在利用不同参与者的私有数据学习模型。作者提出通过估计本地数据密度并设计辅助模型来重复使用本地分类器，以解决不同参与方之间的潜在样本选择偏差问题。作者还提出了多方交叉熵损失，以解决一些本地模型训练不足的情况。实验结果表明
PDFa year ago
深度神经网络用于多维函数数据的多类分类
本研究提出了一种新颖的 mfDNN 分类器，用于处理高维函数观测数据，采用稀疏深度神经网络架构，并采用 ReLU 激活函数和交叉熵损失函数来最小化多分类分类设置的风险函数。我们证明了 mfDNN 在模拟数据和不同应用领域的基准数据集上的性能
PDFa year ago
CVPR高斯云逻辑调整的长尾视觉识别
本文提出了一种适用于长尾数据的新的神经网络训练方法，使用高斯混合调整不同分类逻辑回归的差异，实现对样本在嵌入空间的调整，从而解决长尾问题，同时也提出了一种分类器的重新训练策略来减轻歧视，实验表明该方法具有卓越的性能。
PDFa year ago