UPop: 压缩视觉语言 Transformer 的统一和渐进式修剪
该论文提出了一种名为 UP-ViTs 的统一结构修剪框架,可在保持模型一致性的同时,压缩 Vision Transformer 等模型的体积并提高模型的准确性。实验证明,UP-ViTs 在 Object Detection 等任务中取得了不俗的性能,并在 ImageNet 上超越了传统的 ViTs 模型。
Nov, 2021
PuMer 是一个使用文本感知修剪和模态感知合并策略的令牌减少框架,可通过在 VL 模型中添加轻量级令牌缩减器模块来改进模型推理速度和减少内存占用,从而提高了 VL 任务的推理吞吐量并减少了内存占用。
May, 2023
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
将静态压缩和动态压缩技术共同融合,从而获得一个输入自适应的压缩模型,以更好地平衡总体压缩比和模型性能,并通过子组门扩充技术解决性能下降问题。
Oct, 2023
本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。
Mar, 2023
我们提出了一种新的深度修剪方法,通过引入新颖的块修剪策略和渐进训练方法,以及将修剪方法扩展到视觉转换器模型,实验证明我们的方法在各种修剪配置下始终优于现有的深度修剪方法。
Jan, 2024
该研究提出了通用文档处理(UDOP)方法,使用 Vision-Text-Layout Transformer 对文本、图像和布局进行建模,实现了高质量的神经文档编辑和内容定制,是首个在文档 AI 领域一次性完成高质量文档编辑和内容定制的模型,并在金融报告、学术论文和网站等数据领域中实现了 8 种文档 AI 任务的最新成果。
Dec, 2022
从大量的预先训练图像 - 语言模型 (VLMs) 调整到下游任务的适应性最好的范式变成了即刻学习。我们提出了无需训练的无监督提示 (TFUP),它在无需训练或标记的情况下最大程度地保留了内在的表现能力,并通过将预测概率与基于相似度的预测概率之间的残差连接进行增强。然后,我们使用实例置信度和原型分数来选择代表性样本,这些样本用于定制训练自由推理的可靠特征缓存模型 (FCM)。我们设计了一种多级相似度度量 (MSM),它考虑了特征级和语义级相似度,以计算每个测试图像与缓存样本之间的距离,作为相应缓存标签的权重,进而生成基于相似度的预测概率。通过这种方式,TFUP 在多个分类数据集上实现了令人惊讶的性能,甚至超过了基于训练的方法。在我们的 TFUP 基础上,我们提出了一个训练为基础的方法 (TFUP-T) 来进一步提升适应性能力。除了标准的交叉熵损失外,TFUP-T 还采用了额外的边际分布熵损失,从全局角度约束模型。与无监督和少样本适应方法在多个基准测试中相比,我们的 TFUP-T 实现了新的最先进的分类性能。特别是,在最具挑战的 Domain-Net 数据集上,TFUP-T 将 POUF 的分类准确度提高了 3.3%。
Apr, 2024
本文研究神经网络压缩、优化技术如剪枝、量化对抗攻击的影响,并比较分析了压缩模型与未压缩模型的对抗攻击鲁棒性,发现不同压缩方法存在差异,并且不同应用具有不同表现。
Dec, 2020
通过减少视觉标记并合并相关标记,我们提出了一种自适应的视觉标记压缩方法 PruMerge,可以显著减少可视标记的数量并保持相似的模型性能。
Mar, 2024