VLTinT: 视觉语言双重 Transformer，用于连贯的视频段落字幕生成

AAAINov, 2022

VLTinT: 视觉语言双重 Transformer，用于连贯的视频段落字幕生成

VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning

Kashu Yamazaki, Khoa Vo, Sang Truong, Bhiksha Raj, Ngan Le

TL;DR本文提出了一种新的视觉 - 语言特征模型 (VL feature)，通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义，同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配，实验证明该方法优于现有的最优方法。

Abstract

video paragraph captioning aims to generate a multi-sentence description of an untrimmed video with several temporal event locations in coherent storytelling. Following the human perception process, where the scene is effectively understood by decomposing it into visual (e.g. human, an

video paragraph captioning visual-linguistic feature transformer-in-transformer vl contrastive loss vltint

发现论文，激发创造

TVLT: 无文本的视觉语言变换器

该研究提出了一种无需文本模块的视频与语言结合模型 ——Textless Vision-Language Transformer (TVLT)，采用均质的 transformer block 提取由视觉和语音输入组成的多模态信息，用 mask-autoencoding 和对比建模实现视频与音频的对齐，并在视觉问答、图片检索、视频检索以及多模态情感分析等多项任务中取得与有文本模块模型相当的表现，推测从低层视觉和音频信号中学习紧凑高效的视语表示的可能性。

Sep, 2022

VAuLT: 增强视觉与语言 Transformer 用于社交媒体情感分类

本研究提出了 Vision-and-Augmented-Language Transformer（VAuLT），以传播大型语言模型（LM）BERT 的输出表示到 ViLT 的语言输入为核心思想，VAuLT 在包括富语言输入和情感结构在内的视听任务中相对于 ViLT 获得了高达 20% 的性能提升，并在 TWITTER-2015，TWITTER-2017，MVSA-Single 和 MVSA-Multiple 的情感分类任务中取得了与现有技术相媲美的表现。

Aug, 2022

ViLTA：通过文本增强增强视觉语言预训练

本文提出了一种名为 ViLTA 的新方法，由两个组件组成，旨在进一步促进模型在图像和文本对之间学习细粒度表示，采用交叉蒸馏方法生成软标签以提高模型的稳健性，并利用上下文合成硬负样本来增加图像 - 文本匹配的难度，从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。

Aug, 2023

VLT: 面向参考分割的视觉语言变换器和查询生成

该研究提出了一种轻量级的视觉 - 语言 Transformer 框架来实现引用分割，其中包括 Query Generation Module，Query Balance Module 以及 masked contrastive learning，它们能够动态生成多个特定于输入的查询，以明晰理解语言表达的多样性，同时针对不同的语言表达方式进行了明确的跨样本学习。该框架在五个数据集上都实现了最新的引用分割成果。

Oct, 2022

VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

VIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器，通过设计一个新的预训练任务 Masked Visual-token Modeling（MVM）进行更好的视频建模，综合分析证明了其显式时间建模和 MVM 的有效性，取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。

Nov, 2021

VL-InterpreT：一种用于解释视觉语言变换器的交互式可视化工具

本文介绍了 VL-InterpreT，一种可视化工具，通过跟踪关注头中的各种统计信息、可视化跨模态和内模态注意力热力图、以及绘制视觉和语言标记的隐藏表示，来提供多模态转换器中的注意力和隐藏表示的解释。文中使用 KD-VLP 模型根据 Visual Commonsense Reasoning（VCR）和 WebQA 等视觉问答基准展示了 VL-InterpreT 的功能，同时介绍了通过使用该工具学到的有关多模态转换器行为的一些有趣发现。

Mar, 2022

DTLLM-VLT: 基于 LLM 的视觉语言跟踪多样化文本生成

Visual Language Tracking (VLT) leverages multi-granularity text descriptions to enhance single object tracking (SOT) by providing fine-grained evaluation of multi-modal trackers.

May, 2024

2020 VATEX 视频字幕挑战赛 NITS-VC 系统

本文介绍了用于视频字幕挑战的框架，采用编码器 - 解码器的方法，其中使用 3D 卷积神经网络对视频进行编码，并使用两个 LSTM 递归网络进行解码，最终输出是两个 LSTM 的输出元素乘积，而此模型可以在公共和私人测试数据集上实现 BLEU 得分分别为 0.20 和 0.22。

Jun, 2020

BiLL-VTG: 融合大型语言模型和轻量级视觉工具进行基于视频的文本生成

通过使用 BiLL-VTG 框架，结合大型语言模型 (LLMs)、结构化场景图生成和描述性图像标题生成两种视觉工具，通过对特定视频事件进行多次推理步骤，实现对用户指令的文本回复，并通过 InsOVER 算法使用语言指令定位相应的视频事件，从而使 LLMs 能够与长视频进行交互，实验表明该框架优于预训练模型 Flamingo-80B，达到了最先进的性能。

Oct, 2023

VL-GPT：用于视觉与语言理解与生成的生成式预训练 Transformer 模型

VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023