FaD-VLP: 面向统一检索和说明的时尚视觉语言预训练

EMNLPOct, 2022

FaD-VLP: 面向统一检索和说明的时尚视觉语言预训练

FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning

Suvir Mirchandani, Licheng Yu, Mengjiao Wang, Animesh Sinha, Wenwen Jiang...

TL;DR提出了一个基于三元组生成的时尚特定预训练框架和可同时执行时尚检索和字幕任务的灵活解码器模型设计，具有跨模态检索、图像检索、图像字幕和多模态分类等多种功能。

Abstract

multimodal tasks in the fashion domain have significant potential for e-commerce, but involve challenging vision-and-language learning problems - e.g., retrieving a fashion item given a reference image plus text

multimodal tasks fashion domain pre-training framework decoder-based model architecture cross-modal retrieval

发现论文，激发创造

FashionViL：面向时尚的视觉与语言表征学习

本文提出了 FashionViL，一个针对时尚领域的视觉语言（V+L）表征学习框架，包含两个周到设计的预训练任务：多视角对比学习和伪属性分类学习，以及一个基于 Transformer 的灵活多用途模型架构，将其广泛适用于各种 V+L 任务，并在 5 个下游任务上取得了最佳成果。

Jul, 2022

FAME-ViL：用于异构时尚任务的多任务视觉语言模型

本文提出了一种针对时尚多种异构任务的多任务高效学习方法 ——FAME-ViL，该方法通过引入跨注意力适配器和任务特定适配器到统一的 V+L 模型中，加上稳定而有效的多任务训练策略，能够显著地提高参数效率和任务性能。

Mar, 2023

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022

视觉 - 语言预训练：基础、最新进展和未来趋势

本文研究多模态智能领域的视觉 - 语言预训练方法，分为三类分类，包含图像 - 文本、核心计算机视觉和视频 - 文本任务，针对每类任务，提出了针对性的方法，分别探究了研究进展和存在的挑战并讨论了更先进的主题。

Oct, 2022

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

Kaleido-BERT：时尚领域视觉 - 语言预训练

Kaleido-BERT 是一种新型的视觉 - 语言预训练模型，采用对齐引导的遮盖策略和五项自监督任务进行 VL 预训练，实现了更好的图像 - 文本语义关系表示，并在四个下游任务上实现了领先的性能，特别是时装图像标注任务上，展示了其在实际应用中的广泛潜力。

Mar, 2021

多模态不确定性感知视觉 - 语言预训练模型

本文通过概率分布编码器（PDE）将所有模态的表示作为概率分布映射，对不确定性建模，提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。

Oct, 2022