VAuLT: 增强视觉与语言 Transformer 用于社交媒体情感分类

Aug, 2022

VAuLT: 增强视觉与语言 Transformer 用于社交媒体情感分类

VAuLT: Augmenting the Vision-and-Language Transformer for Sentiment Classification on Social Media

Georgios Chochlakis, Tejas Srinivasan, Jesse Thomason, Shrikanth Narayanan

TL;DR本研究提出了 Vision-and-Augmented-Language Transformer（VAuLT），以传播大型语言模型（LM）BERT 的输出表示到 ViLT 的语言输入为核心思想，VAuLT 在包括富语言输入和情感结构在内的视听任务中相对于 ViLT 获得了高达 20% 的性能提升，并在 TWITTER-2015，TWITTER-2017，MVSA-Single 和 MVSA-Multiple 的情感分类任务中取得了与现有技术相媲美的表现。

Abstract

We propose the vision-and-augmented-language transformer (VAuLT). VAuLT is an extension of the popular Vision-and-Language Transformer (vilt), and improves performance on vision-and-language (VL) tasks that invol

vision-and-augmented-language transformer vilt multimedia data language model performance improvement

发现论文，激发创造

ViLTA：通过文本增强增强视觉语言预训练

本文提出了一种名为 ViLTA 的新方法，由两个组件组成，旨在进一步促进模型在图像和文本对之间学习细粒度表示，采用交叉蒸馏方法生成软标签以提高模型的稳健性，并利用上下文合成硬负样本来增加图像 - 文本匹配的难度，从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。

Aug, 2023

TVLT: 无文本的视觉语言变换器

该研究提出了一种无需文本模块的视频与语言结合模型 ——Textless Vision-Language Transformer (TVLT)，采用均质的 transformer block 提取由视觉和语音输入组成的多模态信息，用 mask-autoencoding 和对比建模实现视频与音频的对齐，并在视觉问答、图片检索、视频检索以及多模态情感分析等多项任务中取得与有文本模块模型相当的表现，推测从低层视觉和音频信号中学习紧凑高效的视语表示的可能性。

Sep, 2022

VLTinT: 视觉语言双重 Transformer，用于连贯的视频段落字幕生成

本文提出了一种新的视觉 - 语言特征模型 (VL feature)，通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义，同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配，实验证明该方法优于现有的最优方法。

Nov, 2022

ViLT：无卷积或区域监督的视觉语言 Transformer

本文提出了一种新的 Vision-and-Language Pre-training 模型 ViLT，它是一种单体模型，与文本输入处理方式相同，并通过多模态交互步骤实现视觉输入处理。ViLT 通过简化图像输入处理过程，使得模型训练更加高效，可以有效地提高下游任务的性能表现。

Feb, 2021

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

VLT: 面向参考分割的视觉语言变换器和查询生成

该研究提出了一种轻量级的视觉 - 语言 Transformer 框架来实现引用分割，其中包括 Query Generation Module，Query Balance Module 以及 masked contrastive learning，它们能够动态生成多个特定于输入的查询，以明晰理解语言表达的多样性，同时针对不同的语言表达方式进行了明确的跨样本学习。该框架在五个数据集上都实现了最新的引用分割成果。

Oct, 2022

时尚领域的遮蔽视觉语言变压器

设计一种面向时尚领域的多模式表达模型，使用视觉转换器架构代替预训练模型 BERT，实现端到端框架，并使用遮蔽图像重构实现对时尚领域的细粒度理解。该模型没有使用额外的预处理模型（如 ResNet），能轻松推广到各种匹配和生成任务中，并得到了提取（rank@5: 17%）和识别（准确度: 3%）任务结果的明显改进。

Oct, 2022

MAGVLT: 遮盖式生成式视觉与语言转换器

本篇论文提出了一种基于变压器的联合视觉与语言模型，名为 MAGVLT，它可以生成图像和文本序列，并且相对于以前的模型具有双向上下文编码和更快的并行词汇预测等优点。经过实验证明，MAGVLT 可以在零样本情况下使用较小的模型（少于 500M 参数）在 MS-COCO 数据集上取得很好的成果。

Mar, 2023

LT-ViT：用于多标签胸部 X 射线分类的视觉 Transformer

利用 LT-ViT 来从多个尺度聚合信息，实现对胸部 X 光图像进行纯可视化模型训练，其优于基于纯 ViTs 的现有方法，在两个公开 CXR 数据集上表现出最先进的性能，并且对于其他预训练方法具有泛化性且不依赖于模型初始化，并且能够实现模型的可解释性而无需使用 grad-cam 及其变种。

Nov, 2023

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023