文本到图像跨模态生成：系统综述

Jan, 2024

文本到图像跨模态生成：系统综述

Text-to-Image Cross-Modal Generation: A Systematic Review

Maciej Żelaszczyk, Jacek Mańdziuk

TL;DR通过 “跨模态生成” 这一视角回顾了关于从文本生成视觉数据的研究，对各种针对输入文本并产生视觉输出的方法进行了比较和对比，并提出了在领域中的常见模板，逐一探讨了图片 - 文本方法、视频 - 文本方法、图片编辑、自监督和基于图形的方法。对 2016 年至 2022 年在 8 个机器学习领域的顶级学术会议上发表的研究论文进行了总结，也纳入了一些与所述搜索标准不匹配的相关论文，发现该领域的发表论文数量显著增加，并凸显了研究空白和潜在的研究方向。据我们所知，这是首个系统地从 “跨模态生成” 的视角来审视文本到图像生成的综述。

Abstract

We review research on generating visual data from text from the angle of "cross-modal generation." This point of view allows us to draw parallels between various methods geared towards working on input text and p

cross-modal generation text-to-image generation visual data machine learning conferences research gaps

发现论文，激发创造

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

文本的双模态：视觉和文本生成预训练

对于像素级语言模型，本论文介绍了一种新颖的预训练框架，通过在超过 4 亿个文档渲染的 RGB 图像上预训练，采用双模态训练方案，结合视觉数据和文本数据，通过下一个块预测和分类头预测进行训练，并展示了将视觉和文本数据结合的潜力及有效性。

Apr, 2024

图像 - 文本多模型综述

在人工智能领域的演变环境中，图像与文本信息的融合已成为一个关键的领域，引发了图像 - 文本多模态模型的出现。本文全面回顾了图像 - 文本多模态模型的发展和现状，探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段，提出了三个不同阶段的分类，根据其引入时间和对学科的影响。此外，根据任务在学术领域的重要性和普及性，对图像 - 文本多模态模型相关任务进行了五个主要类型的分类，阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就，但仍存在许多挑战和问题。本文深入探讨了图像 - 文本多模态模型固有的挑战和限制，促进了未来研究方向的探索。我们的目标是提供对图像 - 文本多模态模型研究现状的全面概述，并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作，推进图像 - 文本多模态模型社区的发展。

Sep, 2023

统一的文本到图像生成和检索

研究中，我们提出了一个统一框架，以多模态大型语言模型（MLLMs）为背景，探索了文本到图像生成和检索之间的关系，并引入了一种生成检索方法，在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估，并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验，证明了我们提出方法的优越性和效果。

Jun, 2024

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018

文本到图像模型在视觉模态缺失的多模态学习中的应用

通过用生成式变压器填补缺失的视觉数据，我们提出了一个简单但有效的多模态学习框架 GTI-MM，以增强数据效率和模型的鲁棒性，尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析，包括模型的训练，结果显示合成图像有助于训练数据的效率，并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外，我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。

Feb, 2024

逐步文本到图像生成的序贯语义生成通信

该论文提出了一种新的通信系统框架，利用多模式生成模型的优势生成有前途的代沟能力。我们的主要研究方向是基于图像到文本转换和顺序传输单词令牌的通信系统设计，旨在为实际通信系统利用最先进的生成模型铺平新的道路。

Sep, 2023

AI 文本到图像和 AI 文本到视频生成器的调查

通过调研文献并分析各项研究方法，该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法，包括数据预处理技术、神经网络类型以及评估指标。此外，论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言，这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。

Nov, 2023

多模式提示下的用户友好定制生成

本文提出了一种方法，用户只需提供每个定制主题的图像和文本，而不需要提供多张图像，通过引入 “多模态提示” 概念，将文本和图像相结合，简化用户交互，实现对对象和场景的精确定制。该方法在用户友好性和使用友好输入定制复杂对象方面超过了现有的基于微调方法。

May, 2024

视觉 + 语言应用：一项综述

本文探讨了跨越文本、视觉、音频等多模态应用领域内相关研究，包括文本生成图像、视觉语言交互等方面，同时提供最新的研究论文、数据集、应用项目及相关信息。

May, 2023