- 研究 CoT 增强蒸馏之谜
链式思维 (Chain of Thought) 的理由序列已被证明能在问题回答等任务中有效提高语言模型的性能。最近的研究表明,这种理由序列在模型蒸馏中也能起到作用。通过将这些序列(由大型 “教师” 模型生成)与目标标签一同用于微调小型 “学 - 定制非平稳求解器用于扩散和流动模型的快速采样
介绍了 Bespoke Non-Stationary (BNS) 求解器,一种求解器蒸馏方法,用于提高扩散和流动模型的样本效率。
- SwiftBrush: 一步文本到图像扩散模型与变分得分蒸馏
利用无图像数据的方法,采用新型熟练的学生网络模型 SwiftBrush 进行模型蒸馏,实现可生成高保真图像的一步式文本到图像生成,并且在 COCO-30K 基准测试上取得了竞争性结果或显著超越现有最先进的蒸馏技术。
- 超越微调:从模型中学习的调查
在基础模型的基础上,通过 Learn From Model 技术对模型进行调优、蒸馏和元学习等方面的研究,以提升基础模型的能力和性能,为未来的研究探索和解决待解决的问题提供参考。
- 具有专家反馈的上下文学习用于可解释风格转移
提出通过向 ChatGPT 模型蒸馏来改进形式转换数据集的解释性,进一步使用以上下文学习为基础的 ChatGPT 作为评论者来整合稀缺的专家人工反馈以提炼生成的解释。使用此数据集表明当前分发的模型在形式转换任务上表现不佳,而在我们的高质量数 - 压缩具有外部分布泛化能力的大型视觉语言模型
大规模视觉 - 语言模型的蒸馏是一个具有潜力的方向,本文研究了利用小型或中型数据集将大型视觉 - 语言模型的视觉表示转化为轻量级学生模型,提出了两个原则来增强学生模型在开放词汇分布下的泛化能力,并在开放词汇分布下的分类任务中取得了显著改进。
- 基于在线蒸馏的伪相关反馈
本文研究在在线情况下是否可以从神经重排结果中有效地提取特定查询的模型,并发现在线提取的词汇模型能够在索引上有效地执行。通过识别在第一检索阶段被忽略的文档,第二检索阶段可以丰富重新排序文档的池。实证研究表明,这种方法与假反馈技术、密集检索方法 - 最大编码率缩减下的句子表示压缩
本文介绍了一种使用 MCR2 目标学习额外的投影层来研究句子表示模型 Sentence-BERT 的模型蒸馏方法,新模型具有更低的复杂性和句子嵌入大小,可在语义检索基准上实现可比较的结果。
- Paired-Logits 逆向攻击恢复图像的 FedMD 破解
本文介绍了一种名为 FedMD 的联合学习方案,使用模型蒸馏来保证隐私性,而不是直接共享模型参数。然而,我们发现即使是共享公共数据集的输出日志比直接共享渐变更为安全,但仍然存在数据曝光的风险。作者研究表明,恶意服务器可以利用 PLI 攻击 - 在能力受限情况下发起强大的后门攻击
本研究探讨了在能力限制内实施黑盒后门攻击的可能性,通过设计后门触发器,攻击者可以在没有参与训练过程或了解目标模型结构的情况下作为图像注释者或供应商从事此类攻击。实验结果表明,我们的方法在黑盒场景中实现了高攻击成功率,并逃过了最先进的后门防御 - MiniALBERT: 基于参数高效递归 Transformer 的模型蒸馏
本文介绍 MiniALBERT,一种将已有的完全参数化的语言模型转换为压缩递归模型的技术,探讨了论文中提出的模型蒸馏、跨层参数共享、瓶颈适配器等技术对压缩模型的 fine-tuning 效果以及在多种领域的实验结果。
- 通过本地自我正则化实现对抗噪声标签的联邦学习
本文针对联邦学习中标签噪声频繁存在的问题提出一种本地自我正则化的方法,通过模型蒸馏有效地规范本地训练过程,并且可以在各种噪声水平下实现显著的噪声抵抗力,并在 Clothing1M 真实数据集上取得卓越的表现。
- 一次性剪枝:稀疏预训练语言模型
通过结合权重剪枝和模型蒸馏技术,我们提出了一种新的方法,用于训练稀疏的预训练变压器语言模型,这些模型可以快速高效地用于各种自然语言处理任务,并保持其稀疏性,同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀 - ACL论摘要总结压缩中的注意力温度问题
该研究论文着重研究如何将深度学习模型中的大模型压缩成小模型,以便更快地生成和节省计算资源,并探究注意力温度在捕捉伪标签方面的作用。
- 文本分类的数据精炼
本研究提出了一种新的数据蒸馏方法,使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集,结果显示使用压缩后的数据集,在保持准确度的前提下只占原始数据集的 0.1%,获得了 90% 左右的性能。
- IJCAI带有无噪差分隐私的联邦模型蒸馏
使用 FEDMD-NFDP 框架可以在保证通信效率和功能可靠性的同时提供无噪声的差分隐私保证,适用于不同类型的数据集、模型和计算环境。
- ECCVGAN 瘦身:通过统一的优化框架实现全能的 GAN 压缩
该研究提出了一个名为 GAN Slimming 的统一优化框架,将多种压缩方法与 GAN 最小二乘目标组合在一起,相比现有选项在压缩图像转换 GAN 方面表现优异,其中包括模型蒸馏,通道修剪和量化等几种主流压缩技术。
- 在线模型蒸馏以提高视频推断的效率
该文研究使用模型蒸馏技术将低成本的语义分割模型专门应用于目标视频流,使模型接近高成本模型的准确性,并在推断运行时具有更低的成本以及更好的稳定性。
- 数据集压缩
本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
- NIPS使用透明模型蒸馏的蒸馏和比较方法:审计黑匣子模型
本文提出了 Distill-and-Compare 方法,通过将黑匣子模型视为教师,训练透明的学生模型来模仿黑匣子模型的风险评分,利用透明和未透明的两个模型之间的差异分析黑匣子模型,最后在四个公共数据集上验证了该方法的有效性,并提出了一种统