LightningDOT：用于实时图像文本检索的视觉 - 语义嵌入的预训练

ACLMar, 2021

LightningDOT：用于实时图像文本检索的视觉 - 语义嵌入的预训练

LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval

Siqi Sun, Yen-Chun Chen, Linjie Li, Shuohang Wang, Yuwei Fang...

TL;DR本文提出了一种名为 LightningDOT 的方法，通过三个新颖的学习目标进行预训练，在不损失准确性的情况下通过去除跨模态注意力实现图像文本检索的加速，有效提高了检索速度，其中 LightningDOT 在多个检索基准测试中均取得了新的最优状态，超过了消耗 1000 倍计算时间的现有预训练模型。

Abstract

multimodal pre-training has propelled great advancement in vision-and-language research. These large-scale pre-trained models, although successful, fatefully suffer from slow inference speed due to enormous compu

multimodal pre-training image-text retrieval lightningdot inference speed computational efficiency

发现论文，激发创造

HiVLP: 面向快速图像 - 文本检索的分层视觉语言预训练

本文提出了一种用于快速图像 - 文本检索的 Hierarchical Vision-Language Pre-Training（HiVLP）方法，具有快速推理速度和可扩展性，并能够在大规模检索场景下进行优化表现，在 Flickr30k 和 COCO 数据集上展示了 + 4.9AR 和 + 3.8AR 的性能优势。

May, 2022

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

动态离散视觉标记的统一语言 - 视觉预训练

最近，大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言，突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散标记的视觉分词器，LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像 - 文本语料库上预训练的 LaVIT 具有令人印象深刻的多模态理解能力。广泛的实验表明，它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此 https URL 上提供。

Sep, 2023

图文检索的动态对比蒸馏

本研究提出了一种名为 DCD 的新型动态对比蒸馏框架，用于压缩大型 VLP 模型以改善跨模态图像文本检索（ITR）的效率和部署，其中涉及多模态对比学习、动态蒸馏等技术，实验证明在 MS-COCO 和 Flickr30K 基准上，将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。

Jul, 2022

快与慢的思考：利用 Transformer 进行高效的文本 - 图像检索

本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索，并将两种方法相结合，提高了检索准确性并确保了可扩展性，同时还引入了新的细粒度跨注意力架构，并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型，并在 Flickr30K 图像数据集和 VATEX 视频数据集上验证了该方法。

Mar, 2021

提高场景文本检测器的视觉语言预训练

本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用，提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能，通过三个 pretext tasks 来进行预训练，在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。

Apr, 2022

训练端到端的视觉语言变换器的实证研究

该研究展示了一个名为 METER 的多模态端到端 Transformer 框架，研究了如何设计和预训练一个完全基于 Transformer 的视听模型以及它们的性能，通过在多个维度上对模型设计进行分解，并使用预训练的增强模型，达到了相对于基于区域特征的模型更好的性能，即在 VQAv2 测试数据集上取得了 77.64% 的准确率，超过了以前的最优模型，并且在最佳情况下可以达到 80.54％的准确率。

Nov, 2021

TerDiT: 基于 Transformer 的三元扩散模型

我们提出了 TerDiT，一种针对具有 transformer 的三态扩散模型的量化感知训练（QAT）和有效部署方案，致力于探索大规模 DiT 模型的高效部署策略，展示了从头开始训练极低比特扩散变压器模型的可行性，同时保持与全精度模型相比有竞争力的图像生成能力。

May, 2024

DiT：文档图像 Transformer 的自监督预训练

本文提出了 DiT，一种利用大规模未标记文本图像进行自监督预训练的文档图像变压器模型，成为视觉文档 AI 任务的骨干网络，在文档图像分类、文档布局分析、表格检测以及 OCR 的文本检测等诸多任务中取得了最新的最佳结果。

Mar, 2022

通过潜在压缩学习在交替图像文本数据上进行视觉模型预训练

通过最大化因果注意模型的输入和输出之间的相互信息，我们提出了一种名为 Latent Compression Learning（LCL）的视觉模型预训练方法，以有效利用交叉图像 - 文本数据，实现对齐图像 - 文本数据进行预训练并生成强大的视觉表示。

Jun, 2024