distillation | BriefGPT - AI 论文速递

关键词distillation

搜索结果 - 137

预训练编码器中蒸馏在缓解后门中的有效性
本研究探索了在 SSL 中针对恶意编码器的一种叫作蒸馏的防御方法，蒸馏最初用于监督学习，其目的是从给定模型（即教师网络）中提取知识并传递给另一个模型（即学生网络），现在我们使用它来从被恶意植入的预训练编码器中提取良性知识并传递给一个新的编码
PDF4 months ago
小而有趣：基于反馈的幽默提炼方法
大语言模型通过模仿教师反馈进行提炼来传递知识，但在需要复杂的语言理解和创造力的任务上存在性能差距。本研究通过给大语言模型分配双重角色，作为生成数据的 “教师” 和评估学生表现的 “评论家”，研究了与教师的补充指导相关的影响。实验结果表明，将
PDF4 months ago
分而治之？您应该压缩 LLM 的哪个部分？
我们提出一种将问题分解为问题分解阶段和问题解决阶段的策略，并证明该策略能够优于单阶段解决方案。通过在结合问题解决 LLMs 的同时利用较小的问题分解模型，我们能够实现具有高效推理和局部适应性的推理。
PDF4 months ago
蒸馏增强的生成式检索
通过蒸馏技术，提出了一种名为 DGR 的可行框架，利用排名模型作为教师角色，通过专门设计的蒸馏 RankNet loss 来优化生成式检索模型，从而提升了当前生成式检索系统的性能。
PDF5 months ago
通过无监督学习在图上学习 MLP 以加速图推理
通过无监督学习简化后的多层感知器（MLPs）在图表上进行学习，以增强泛化效果，特别是在未见节点的设置中，实现了显著的性能提升（7-26%）和图表推断加速（90-126 倍），在大规模图表数据集上优于现有基准方案。
PDF5 months ago
单一盆地有多好？
通过引入聚合技术和蒸馏方法，我们在同一领域内重新发现了多盆地深度聚合模型，从而证明了多模式神经损失景观对于深度聚合模型的经验成功起到重要推动作用，虽然连接性增加会负面影响性能。
PDF5 months ago
CANDLE: 大型语言模型中的常识推理的迭代概念化与实例提炼
通过引入 CANDLE，一个渗透式谐谑缠绕呼出器，研究人员在常识知识库上进行了环境相关的概念化和实例化，并通过评估验证提出的这些知识类型的杰出质量和多样性，进而得出结论，在学生模型上提取 CANDLE 可以对四个下游任务带来好处。
PDF6 months ago
AAAI从 LLMs 中提取复杂推理能力：利用负面数据提炼出来的金子
通过负面样本进行蒸馏以及在算术推理任务中证明负面数据在从 LLM 蒸馏中的作用。
PDF6 months ago
SHAP-EDITOR: 指导的潜在三维编辑技术，秒级完成
我们提出了一种新颖的前馈 3D 编辑框架，名为 Shap-Editor，通过利用 2D 图像编辑网络的蒸馏过程，结合适当的潜在空间进行直接的 3D 编辑，构建了一个仅需约一秒编辑时间的前馈编辑网络。
PDF7 months ago
重新考虑神经语音识别中的熵半环
在流媒体环境中，语音识别模型需要在完整音频流可用之前将语音的子序列映射为文本，但由于训练过程中很少有语音和文本之间的对齐信息可用，模型需要以完全自我监督的方式进行学习。本文通过熵半环重新考虑了神经语音识别模型，展示了如何通过对齐熵来通过正则
PDF7 months ago
分类增量学习的对抗鲁棒性
提出了一种将增量学习与敌对训练相结合的方法，通过引入 FPD 损失函数和 LAD 损失函数解决了增量学习中的鲁棒性问题，并在实验中证明了其比现有方法更为优越。
PDF7 months ago
HoVer-UNet：基于 UNet 的多类细胞核分割的 HoVerNet 加速及知识蒸馏
我们提出了一种名为 HoVer-UNet 的方法，用于在组织病理学中对核实例进行分割和分类。我们通过使用 Mix Vision Transformer 作为主干网并配备自定义损失函数来压缩和优化 HoVerNet 的知识，从而实现了与 Ho
PDF7 months ago
Distil-Whisper: 大规模伪标记下的鲁棒知识蒸馏
通过伪标注法，将较大的语音识别模型提炼为 Distil-Whisper 变体，使其在低延迟或资源有限的环境中更快速地执行，同时保持与原模型接近的性能。
PDF8 months ago
EMNLP个性化蒸馏：为代码生成赋能开源 LLMs 的自适应学习
通过个性化蒸馏的方式，我们在代码生成方面取得了显著的进展，仅使用 1/3 的数据就能提升性能，并且通过 2.5-3K 的个性化示例，带来 4-6 美元的数据收集成本，使 CodeGen-mono-16B 模型 pass@1 达到 36.4％
PDF8 months ago
利用早期结果来调控蒸馏中的特征偏倚
深度网络在现实世界的监督学习任务中往往学习到伪特征 - 标签相关性，而蒸馏中学生模型的表征能力可能比相应的教师模型低，我们提出了一种新颖的早期输出机制，通过使用网络较早层的表征来尝试预测标签，这些早期输出可以自动识别出形式为自信但错误的预测
PDF8 months ago
自动驾驶中图像表征向点云的蒸馏重新审视
自监督图像网络在解决复杂的 2D 任务（如语义分割、目标发现）时非常高效且几乎没有下游监督要求，然而，当前基于激光雷达数据的自监督 3D 网络表现不佳，因此有几种方法提议将高质量的自监督 2D 特征转移到 3D 网络中，最近在自动驾驶数据上
PDF8 months ago
训练一致性模型的改进技术
一步法生成模型中的一种家族为一次生成高质量数据提供了新的方法，通过改进的一致性训练技术，该研究提出了克服预训练模型局限性以及避免评估偏差的方法，并在 CIFAR-10 和 ImageNet 数据集上表现出了显著的改进。
PDF8 months ago
从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力
Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language mod
PDF9 months ago
LLMs 的有效表格推理能力提炼
本论文提出了一种新颖的基于表格推理的蒸馏方法，通过将大型语言模型（LLMs）蒸馏成专门为基于表格推理任务设计的小型模型，实验证明使用蒸馏数据进行微调的 0.22 亿参数模型（Flan-T5-base）在科学表格文本生成数据集（SciGen）
PDF9 months ago
文字 - 图像模型：反事实解释的黑盒操作方法
该研究提出了一种基于蒸馏的黑盒逆因果解释方法，使用只有图像和其预测结果的信息生成对分类器预测进行改变所需的最少必要特征，从而达到与其他方法相当的解释效果。
PDF10 months ago