视觉 + 语言应用：一项综述

CVPRMay, 2023

Vision + Language Applications: A Survey

Yutong Zhou, Nobutaka Shimada

TL;DR本文探讨了跨越文本、视觉、音频等多模态应用领域内相关研究，包括文本生成图像、视觉语言交互等方面，同时提供最新的研究论文、数据集、应用项目及相关信息。

Abstract

text-to-image generation has attracted significant interest from researchers and practitioners in recent years due to its widespread and diverse applications across various industries. Despite the progress made i

text-to-image generation multimodal applications vision and language research applications datasets

发现论文，激发创造

视觉与语言研究整合趋势：任务、数据集和方法调查

本次调查聚焦于十项著名任务，介绍其问题形式、方法、现有数据集、评估措施，并与相应的最新方法进行比较。我们的工作超越早期的调查，既非任务特定的，也不仅针对一种类型的视觉内容，即图像或视频。此外，我们还提供了该研究领域的一些潜在未来方向，期望此次调查能激发革新性的思路和想法，以解决现有挑战并构建新的应用。

Jul, 2019

图像 - 文本多模型综述

在人工智能领域的演变环境中，图像与文本信息的融合已成为一个关键的领域，引发了图像 - 文本多模态模型的出现。本文全面回顾了图像 - 文本多模态模型的发展和现状，探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段，提出了三个不同阶段的分类，根据其引入时间和对学科的影响。此外，根据任务在学术领域的重要性和普及性，对图像 - 文本多模态模型相关任务进行了五个主要类型的分类，阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就，但仍存在许多挑战和问题。本文深入探讨了图像 - 文本多模态模型固有的挑战和限制，促进了未来研究方向的探索。我们的目标是提供对图像 - 文本多模态模型研究现状的全面概述，并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作，推进图像 - 文本多模态模型社区的发展。

Sep, 2023

视觉与语言研究中当前数据集的调查

本文提出一组质量指标，对视觉和语言数据集进行评估和分析并将其分类，结果显示最近的数据集在语言和抽象概念上更加复杂，然而它们各有优劣之处。

Jun, 2015

文本到图像跨模态生成：系统综述

通过 “跨模态生成” 这一视角回顾了关于从文本生成视觉数据的研究，对各种针对输入文本并产生视觉输出的方法进行了比较和对比，并提出了在领域中的常见模板，逐一探讨了图片 - 文本方法、视频 - 文本方法、图片编辑、自监督和基于图形的方法。对 2016 年至 2022 年在 8 个机器学习领域的顶级学术会议上发表的研究论文进行了总结，也纳入了一些与所述搜索标准不匹配的相关论文，发现该领域的发表论文数量显著增加，并凸显了研究空白和潜在的研究方向。据我们所知，这是首个系统地从 “跨模态生成” 的视角来审视文本到图像生成的综述。

Jan, 2024

面向多模态视觉语言模型生成非通用文本

本文主要介绍了一种将人名加入生成文本的新方法，通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型，我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的，我们修改了之前的多模态框架，接受来自任意数量的辅助分类器提供的相关信息。同时，我们创建了一个新的图像 - 标题数据集，名为 PAC，这个数据集包含了一些知名人物的图像和对这些图像的描述，这些描述中包含了人名。

Jul, 2022

视觉与语言研究中的挑战与前景

本文对语言图像理解中人工智能评估的进展和局限进行了综述，并提出了解决方案。

Apr, 2019

视觉文本与低层次视觉：关于视觉文本处理的综合调查

通过多透视的分析，该研究综述了视觉文本处理领域的最新进展，从文本图像增强和恢复到文本图像操作的层次性分类，再到不同学习范式。同时，讨论了如何将特定的文本特征，如结构、笔画、语义、风格和空间背景，无缝地整合到各种任务中，并在几个广泛使用的数据集上对方法进行了测试和评估。最后，确定了未来研究的主要挑战和潜在途径，旨在确立该综述作为一个基础资源，促进视觉文本处理领域的持续探索和创新。

Feb, 2024

AI 文本到图像和 AI 文本到视频生成器的调查

通过调研文献并分析各项研究方法，该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法，包括数据预处理技术、神经网络类型以及评估指标。此外，论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言，这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。

Nov, 2023

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

视觉语言变换器：一项调研

视觉语言任务中，基于预训练的变压器架构在视觉语言建模方面表现出色，为视觉和语言结合的任务带来了类似的进展。

Jul, 2023