视觉字幕恢复

Jun, 2024

VCR: Visual Caption Restoration

Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian...

TL;DR我们介绍了一种名为 Visual Caption Restoration（VCR）的新颖视觉 - 语言任务，该任务要求模型使用图像中的像素级提示准确恢复部分被遮挡的文本。我们开发了一个流程来生成用于 VCR 任务的合成图像，并构建了一个名为 VCR-Wiki 的数据集，该数据集包含来自维基百科的图像标题对，包括在易和难两个变体中的 211 万英文实体和 34.6 万中文实体。我们的结果表明，当前的视觉语言模型在 VCR 任务中明显落后于人类表现，仅对我们的数据集进行微调并没有显著改进。我们提供了 VCR-Wiki 数据集和数据构建代码，以便促进未来的研究。

Abstract

We introduce visual caption restoration (VCR), a novel vision-language task that challenges models to accurately restore partially obscured texts using pixel-level hints within images. This task stems from the ob

visual caption restoration vision-language task text restoration image-caption pairs vcr-wiki dataset

发现论文，激发创造

基于注意力机制的认知层场景理解

本文介绍了一个新的并行注意力的认知 VCR 网络（PAVCR 网络），该网络能够在推理过程中进行視覺和文本信息的融合，以及并行编码语义信息，从而捕捉认知级别推理所需的丰富信息，并提供了对视觉常识推理的直观解释。大量实验表明，所提出的模型比现有方法在基准 VCR 数据集上均有显着的改进。

Apr, 2022

VICTR：文本到图像多模式任务的视觉信息捕获文本表示

本文提出了一种新的视觉上下文文本表示方法，VICTR，用于处理文本到图像的多模态任务，通过使用图卷积网络和文本表征的结合，有效地捕捉了文本语义中的视觉特征信息，实现了在实验中得到的量化和定性的改进。

Oct, 2020

使用动态工作记忆的认知视觉常识推理

本文提出了一种基于动态工作内存的认知视觉常识推理网络，通过存储句子之间积累的常识来提供先验知识进行推理，可以显著改进现有方法，在视觉常识推理方面提供了直观的解释。

Jul, 2021

CoVR：从网络视频字幕中学习组合视频检索

通过自动数据集创建方法，我们提出了一个可扩展的 Composed Image Retrieval（CoIR）任务，使用由视频标题对生成的三元组，扩展任务范围到 Composed Video Retrieval（CoVR）。通过在庞大的数据库中挖掘具有相似标题的配对视频，并利用大型语言模型生成相应的修改文本，我们构建了 WebVid-CoVR 数据集，其中包含 1.6 百万个三元组。实验证明，在我们的数据集上训练 CoVR 模型可以有效迁移到 CoIR，提高了 CIRR 和 FashionIQ 基准测试中的最新性能。

Aug, 2023

视觉 - 语言 Transformer 是否具备视觉常识？对 VCR 的经验研究

此研究旨在通过提供合理的理由作为预测答案的原因，解释并回答视觉场景问题。尽管 Vision-Language Transformers 在表现上令人满意，但它们存在预训练效果有限、意外的语言偏见、模型架构受限和忽视重要的物体 - 标签相关性等缺点。因此，从数据集、评估指标和训练技巧等角度，本研究对于未来研究提出了一些方向，有望让研究人员重新审视 VCR 的直觉和目标，并帮助克服视觉推理中的挑战。

May, 2024

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

从识别到认知：视觉常识推理

该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标，提出一项包含 290k 多选题的新数据集 VCR，并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络（R2C），该文章对计算机视觉模型的性能进行了分析，并提出未来研究的方向。

Nov, 2018

对比视觉语言模型中的文本编码器是性能瓶颈

通过创建 CompPrompts 数据集的方法，研究了视觉 - 语言模型的编码模式对语言信息的损失情况，并提出了基于文本恢复的方法和 ControlledImCaps 评估基准，发现文本恢复能力与模型适用于呈现目标属性关系、计数、否定和多目标交互等复合要素的能力相关性强，并表明这是对偶视觉 + 语音模型的必要条件。

May, 2023

从稀缺到高效：通过视觉丰富的标题改进 CLIP 训练

本研究关注于通过改善数据质量和数据多样性，特别强调了视觉概念与标题的整合，提出了一种用于 web 爬取数据集训练的新方法 VeCLIP，通过综合评估数据效率和模型性能，证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。

Oct, 2023

视觉事实查证：实现高保真详细标题生成

本研究提出了一种名为 VisualFactChecker（VFC）的自动图像描述方法，通过三个步骤，包括提案、验证和描述，生成高保真、详细的 2D 图像和 3D 物体描述，经综合评估得知 VFC 在多个指标上胜过其他开源的自动图像描述方法。

Apr, 2024