压缩具有外部分布泛化能力的大型视觉语言模型
Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.
Oct, 2023
本研究实现了一种多级知识蒸馏方法,将自监督学习与基于语言模型的强制学习相结合,以生成新颖的 OoD 检测方案,并在多个基准数据集上实现了最新的性能。
Nov, 2022
通过知识蒸馏和数据增强的结合,提出了一个概念简单且轻量级的框架来提高视觉模型的鲁棒性。通过从预训练的基础模型进行蒸馏,我们得出了大型模型并不一定会成为更好的教师的推测并在分布外鲁棒性上取得了显著的改进。基于这一发现,我们提出了离散对抗蒸馏(DAD)的方法,利用鲁棒的教师生成对抗样本并使用 VQGAN 对其离散化,相比于标准的数据增强技术,生成的样本更具信息量。我们提供了一个理论框架来解释在具有数据增强的知识蒸馏中使用鲁棒的教师,并在不同的学生架构中展示了分布外鲁棒性和净精确度的显著改进。值得注意的是,我们的方法与类似技术相比只增加了较小的计算开销,并且可以轻松与其他数据增强技术结合以进一步提高性能。
Nov, 2023
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020
在本论文中,我们首先展示了,经过足够时间的微调但没有适当的正则化,视觉 - 语言模型在给定数据集中往往会过度拟合已知类别,导致对未知类别的表现下降。然后,我们提出了一种新颖的方法 OGEN 来解决这个问题,在关注点主要是改进经过微调模型的未知类别(OOD)泛化能力。具体而言,我们引入了一种类条件特征生成器,通过仅使用任何未知类别的类名,合成 OOD 特征。这些合成特征将提供关于未知类别的有用知识,并在联合优化时有助于规范 ID 和 OOD 数据之间的决策边界。同样重要的是,我们的自适应自蒸馏机制用于规范特征生成模型,在联合优化期间自适应地传递模型状态之间的知识,以进一步防止过度拟合。实验证实,我们的方法在不同设置下提供了令人信服的 OOD 泛化性能增益。
Jan, 2024
基于语言模型的知识蒸馏是提高语言模型的有效部署的关键。本文提出了 GOLD,一种任务无关的数据生成和知识蒸馏框架,通过迭代的超出分布引导的反馈机制来改善生成数据的泛化能力。我们在 10 个不同的分类和序列到序列任务的自然语言处理方面的广泛实验中验证了 GOLD 的优越性和对 less explored 和 novel 任务的适用性。
Mar, 2024
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
应用世界知识通过选择性生成大型语言模型并利用一致性基准不确定性校正方法来提高过分布检测性能,通过从每个图像提取视觉对象充分利用前述世界知识,充分实验证明本方法始终优于现有技术。
Oct, 2023
本文提出 VL distillation,使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型,以提高图像字幕生成和视觉问答任务中的性能。
Apr, 2021
通过多项实验研究,我们发现基于 MiniLMv2 的 Multi-Head Attention 转移是蒸馏中更优选的方法,并解释了其成功的可能原因。此外,我们还发现基于 Hidden State 转移的方法在精妙的层映射策略下依然是竞争性的基准,而 Output Distribution 转移一直落后于其他方法。研究结果帮助我们为延迟关键应用部署高效且有效的学生模型。
Oct, 2023