self-knowledge distillation | BriefGPT

关键词self-knowledge distillation

搜索结果 - 19

SKD-TSTSAN: 基于自知识蒸馏的三流时序偏移注意力网络用于微表情识别
本研究提出了一种基于自我知识蒸馏的三通道时延注意力网络（SKD-TSTSAN），用于提高微表情识别的性能，并在四个微表情数据集上展开实验，结果表明 SKD-TSTSAN 优于现有方法，并取得新的最优性能。
PDF5 days ago
SeCoKD: 对大型语言模型进行上下文学习的对齐方法，更少的示例
我们研究了如何减少示范数量，同时保持竞争性能。我们提出了 SeCoKD，一种自我知识蒸馏训练框架，通过将学生模型与大量提示变体对齐，从而提高单个示范的利用率。结果表明我们的方法在零示范和一示范设置中分别比基准模型和监督微调 (SFT) 的性
PDF10 days ago
自知力蒸馏用于学习模糊性
通过自知力蒸馏方法，有效地解决了语言模型在面对多义样本时过于自信地错误预测单一标签的问题，并通过重新校准置信度，在生成更好的标签分布上取得了显著的改进。同时，该方法相对于现有方法在训练模型时更高效，无需额外的训练过程来完善标签分布。
PDF16 days ago
利用自知识蒸馏引导帧级 CTC 对齐
通过引入自知识蒸馏方法，解决了自动语音识别中教师 - 学生模型帧级对齐不一致的问题，该方法使用共享编码器层并将子模型作为学生模型，提高了资源效率和性能，并通过实验证明了所提方法通过减少对齐不一致来改善性能。
PDF18 days ago
单视图弱监督单目 3D 检测
利用深度信息，无需任何三维标注或其他训练数据，SKD-WM3D 提出了一种弱监督的单目三维检测框架，通过融合深度信息将图像特征转化为三维表示，有效地消除了单目场景中的深度歧义。实验证明，SKD-WM3D 明显超过了最先进的方法，甚至与许多全
PDF4 months ago
BGE M3 - 嵌入：通过自我知识蒸馏实现多语言、多功能、多粒度的文本嵌入
本文介绍了一种新的嵌入模型 M3-Embedding，其以其多语、多功能和多粒度的通用性而脱颖而出。它支持 100 多种工作语言，展示了在多语言和跨语言检索任务上的最新性能，同时能够同时执行三种常见检索功能：密集检索、多向量检索和稀疏检索，
PDF5 months ago
将视觉 - 语言模型的固有知识与无监督领域自适应相结合的自知识蒸馏
无监督领域自适应 (UDA) 通过利用标记的源数据集并将其知识转移到相似但不同的目标数据集，克服了标记数据的繁琐工作。本文结合 UDA 获得的知识与视觉 - 语言模型的内在知识。通过视觉 - 语言模型生成源数据集和目标数据集的零样本预测，调
PDF7 months ago
通过自我知识蒸馏促进少资源场景下的通用跨语言问答
我们提出了一种实用的解决方案，通过高效利用有限的数据资源，改善跨语言问答的转移能力。
PDF9 months ago
提高样本外检测的三个因素
通过引入自我知识蒸馏损失、采样半难例离群数据和使用监督对比学习，我们的方法在分类准确性和离群检测性能之间取得平衡，同时提高了两个性能指标。
PDFa year ago
KDD鲁棒性强的时空交通预测与强化动态对抗训练
提出机器学习方法用于交通预测时的防御措施，包括加强动态防御能力和降低模型过拟合；在真实交通数据集上验证其优于其他基线模型的表现，并有效地提高交通预测模型的防御能力。
PDFa year ago
ACL基于 Transformer 的 AMR 解析中的图信息合并
本文提出了 LeakDistill，通过使用结构适配器显式地将图形信息纳入到学习表示中，使用自知识蒸馏技术，无需使用额外数据就可以获得最先进的 AMR 解析性能。
PDFa year ago
自我知识蒸馏用于外科手术阶段识别
本文通过引入自我知识蒸馏框架来改善手术阶段识别模型，实验结果表明，基于这一框架的模型在 4 种流行的 state-of-the-art 方法上的准确度和 F1-score 分别提高了 3.33％和 3.95％，并且即使使用 75％的训练集，
PDFa year ago
轻量级自我知识蒸馏与多源信息融合
提出了一种利用多源信息进行自知识蒸馏的轻量级框架，其中包括反向引导方法和形状正则化方法，其在各种数据集和模型上的综合实验中表现优于基线和最先进的自知识蒸馏方法，同时具有计算效率和鲁棒性。
PDFa year ago
一种新颖的自我知识蒸馏方法，利用孪生表示学习进行行为识别
本文提出了一种新的自知识蒸馏方法，通过孪生表示学习来最小化给定样本的两个不同视图的表示向量之间的差异，并利用软标签蒸馏和表示向量的相似性，因此能够在同一数据点的各种视图中生成更一致的预测和表示，并在各个标准数据集上验证了其显着提高精确度的效
PDF2 years ago
自我知识蒸馏中的前后向查看：双向解码器用于神经机器翻译
介绍了一种使用自我知识蒸馏和双向解码的神经机器翻译模型，使用这种方法可以鼓励自回归 NMT 模型提前规划，实验表明该方法在多个机器翻译数据集上比强 Transformer 基线方法显著优秀。
PDF2 years ago
自知力蒸馏实现鲁棒准确的物体检测
本文提出 Unified Decoupled Feature Alignment (UDFA)，通过全面探索自知识蒸馏与对抗训练的组合应用于目标检测中，实现比现有方法更好的性能。在 PASCAL-VOC 和 MS-COCO 基准测试中，UD
PDF3 years ago
CVPR通过自我知识蒸馏提高自我：特征细化
本文提出了一种名为 FRSKD 的自我知识蒸馏方法，利用辅助自主教师网络传输分类器网络的精细化知识。该方法可应用于分类和语义分割等多样化任务，并证明其在各种任务和基准数据集中的性能提升
PDF3 years ago
文本摘要的嘈杂自知力蒸馏
本文将自我知识蒸馏应用到文本摘要中，通过引入教师模型生成平滑标签以帮助正则化训练，同时使用多个噪声信号来更好地模拟不确定性，实验结果显示该框架提高了预先训练和非预先训练摘要器的性能，并达到了最先进的结果。
PDF4 years ago
ICCV自我知识蒸馏与渐进式目标细化
该文介绍了一种称为渐进式自我知识蒸馏的有效规则化方法，适用于任何具有硬目标的监督学习任务，可以提高模型的泛化性能和置信度预测，并取得了优于基准的实验结果。
PDF4 years ago