基于文本相关图像修补选择的高效视觉与语言预训练

Jan, 2024

基于文本相关图像修补选择的高效视觉与语言预训练

Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection

Wei Ye, Chaoya Jiang, Haiyang Xu, Chenhao Ye, Chenliang Li...

TL;DRTRIPS 是一种高效的 VLP 方法，通过在视觉主干中引入一个文本导向的补丁选择层，以渐进的方式减少视觉序列，从而加速训练和推理过程，并通过动态计算文本相关的视觉注意力来识别注意力图像令牌，以无缝融合不注意的令牌。TRIPS 不添加额外参数且适用于大多数基于 ViT 的 VLP 模型。将 TRIPS 整合到三种代表性的 VLP 模型中，并在五个广泛使用的多模式基准数据集上进行了详尽的实验研究。实验结果表明，TRIPS 能够提供 40% 的加速效果，同时在下游任务上保持有竞争力或更好的性能。

Abstract

vision transformers (vits) have become increasingly popular in large-scale Vision and Language Pre-training (VLP) models. Although previous VLP research has demonstrated the efficacy of →

vision transformers vits text-relevant image patch selection computational inefficiencies trips

发现论文，激发创造

BUS: 基于 Bottom-Up Patch Summarization 的高效有效的视觉语言预训练

提出了一种名为 BUS 的底层补丁总结方法，通过将底层提取和顶层抽象结合起来来有效地学习简洁的视觉标记序列摘要，以提高训练效率。此方法在各种视觉语言理解和生成任务中表现出竞争性的下游任务性能，同时提高了 50％的训练效率，并通过增加输入图像分辨率而不增加计算成本，取得了许多下游任务的最新成果。

Jul, 2023

针对自监督视觉变换器的补丁级别表示学习

本文设计了一种称为 SelfPatch 的简单而有效的视觉预训练任务，利用 ViT 的特性，在无需人工注释的情况下提高不同类型视觉任务的性能，通过训练神经网络对各种图像的无监督学习来实现。

Jun, 2022

ViLTA：通过文本增强增强视觉语言预训练

本文提出了一种名为 ViLTA 的新方法，由两个组件组成，旨在进一步促进模型在图像和文本对之间学习细粒度表示，采用交叉蒸馏方法生成软标签以提高模型的稳健性，并利用上下文合成硬负样本来增加图像 - 文本匹配的难度，从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。

Aug, 2023

ViLT：无卷积或区域监督的视觉语言 Transformer

本文提出了一种新的 Vision-and-Language Pre-training 模型 ViLT，它是一种单体模型，与文本输入处理方式相同，并通过多模态交互步骤实现视觉输入处理。ViLT 通过简化图像输入处理过程，使得模型训练更加高效，可以有效地提高下游任务的性能表现。

Feb, 2021

通过 Token 重组加速视觉 Transformer：并非所有的修补程序都是您所需的

本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法，以提高模型的计算效率和识别准确率。结果表明，该方法能够在保持相同的计算成本的前提下，提高模型的输入规模并提高模型的识别准确率。

Feb, 2022

HiVLP: 面向快速图像 - 文本检索的分层视觉语言预训练

本文提出了一种用于快速图像 - 文本检索的 Hierarchical Vision-Language Pre-Training（HiVLP）方法，具有快速推理速度和可扩展性，并能够在大规模检索场景下进行优化表现，在 Flickr30k 和 COCO 数据集上展示了 + 4.9AR 和 + 3.8AR 的性能优势。

May, 2022

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

通过补丁选择实现人体姿势估计的高效视觉变换器

提出了一种用于减少 Vision Transformers 计算复杂度的简单方法，通过选择和处理最有信息的小片段，我们将二维人体姿态估计网络的结果作为指导进行小片段的选择，实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效，而且性能略微下降。

Jun, 2023

基于级联视觉 Transformer 的渐进稀疏度预测剪枝

本文提出了一种级联修剪框架，名为 CP-ViT，通过动态预测 Transformer 模型中信息含量低的部分，可以使基于 Vision transformer 的图像识别模型减少计算冗余，同时保证了很高的准确性，具有在对资源有限的移动设备上进行实际部署的多种适用性。

Mar, 2022

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021