VICTR：文本到图像多模式任务的视觉信息捕获文本表示

COLINGOct, 2020

VICTR：文本到图像多模式任务的视觉信息捕获文本表示

VICTR: Visual Information Captured Text Representation for Text-to-Image Multimodal Tasks

Soyeon Caren Han, Siqu Long, Siwen Luo, Kunze Wang, Josiah Poon

TL;DR本文提出了一种新的视觉上下文文本表示方法，VICTR，用于处理文本到图像的多模态任务，通过使用图卷积网络和文本表征的结合，有效地捕捉了文本语义中的视觉特征信息，实现了在实验中得到的量化和定性的改进。

Abstract

text-to-image multimodal tasks, generating/retrieving an image from a given text description, are extremely challenging tasks since raw text descriptions cover quite limited information in order to fully describe visually realistic images. We propose a new visual contextual text repres

text-to-image multimodal tasks visual semantic information victr graph convolutional networks state-of-the-art models

发现论文，激发创造

VicTR: 视频条件的文本表示用于活动识别

本文提出了使用 VicTR 方法对视频文本模型进行优化，在视觉信息外，加入文本信息，以提高活动识别性能，实验结果证明在多个基准测试中，该方法具有竞争性能，特别是在视频文本模型的监督、零样本和少样本情况下。

Apr, 2023

视觉字幕恢复

我们介绍了一种名为 Visual Caption Restoration（VCR）的新颖视觉 - 语言任务，该任务要求模型使用图像中的像素级提示准确恢复部分被遮挡的文本。我们开发了一个流程来生成用于 VCR 任务的合成图像，并构建了一个名为 VCR-Wiki 的数据集，该数据集包含来自维基百科的图像标题对，包括在易和难两个变体中的 211 万英文实体和 34.6 万中文实体。我们的结果表明，当前的视觉语言模型在 VCR 任务中明显落后于人类表现，仅对我们的数据集进行微调并没有显著改进。我们提供了 VCR-Wiki 数据集和数据构建代码，以便促进未来的研究。

Jun, 2024

VirTex：从文本注释中学习视觉表示

使用 COCO Captions 监督预训练的 VirTex 方法可以在使用更少的图像的情况下，产生与 ImageNet 监督或非监督学习得到的特征所匹配或超越的视觉表征。

Jun, 2020

视觉语义提高了场景文本识别中的文本推理水平

该研究提出了一种基于图卷积网络的文本推理（GTR）方法并将其应用于场景文本识别中，该方法可以利用像素之间的空间关联来提高文本识别的性能，并在六个具有挑战性的基准测试中获得最新的最佳结果。

Dec, 2021

多层上下文数据生成的纯文本图像标注

本文提出了一种新的多情景数据生成框架用于提高文本图像注释的训练数据，该框架使用扩散模型生成复杂和简单图像，并在 MSCOCO、Flickr30k 和 SS1M 等数据集上实现了最先进的表现。

May, 2023

SGEITL: 基于场景图增强的图像 - 文本学习，用于视觉常识推理

该论文提出了一种场景图增强的图像 - 文本学习框架，其中利用视觉场景图结构进行常识推理，通过多跳图变压器实现模型结构的正则化，引入了一种利用文本注释进行域相关的视觉场景图训练和生成的弱监督学习方法并在 VCR 和其他任务中进行了广泛的实验，发现其显着提高了性能并证明了每个提出的组件的有效性。

Dec, 2021

将语义概念注入端到端图像字幕生成

本文提出了一种全新的视觉变换器（Vision transformer-based）图像标题模型 ViTCAP，使用网格表示而不提取区域特征。为了提高性能，引入了基于 Vision Transformer 的概念令牌网络（CTN），可以高效地预测语义概念，并将其整合到端到端的标题生成中，从而实现竞争性能，同时简化了结构。

Dec, 2021

从视觉丰富文档中提取多模态信息的图卷积

本文提出了一种基于图卷积的模型来将文本和视觉信息相结合以实现对视觉丰富的文档中实体抽取的方法，并通过实验证明了所提出的模型在两个真实数据集上的性能远优于 BiLSTM-CRF 模型。

Mar, 2019

面向多模态视觉语言模型生成非通用文本

本文主要介绍了一种将人名加入生成文本的新方法，通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型，我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的，我们修改了之前的多模态框架，接受来自任意数量的辅助分类器提供的相关信息。同时，我们创建了一个新的图像 - 标题数据集，名为 PAC，这个数据集包含了一些知名人物的图像和对这些图像的描述，这些描述中包含了人名。

Jul, 2022

通向可泛化的视频片段检索：通过将视觉动态注入到图像 - 文本预训练中实现

研究探究了大规模图文数据中的多模态相关性，并提出了一种通用方法 Visual-Dynamic Injection（VDI）来增强模型对视频时刻的理解及视觉动态信息的提取，从而更准确地进行视频 - 文本对齐，该方法在现有 VMR 方法的基础上取得了显著的进展。

Feb, 2023