CogView2：采用分层 Transformer 技术的更快更好的文本到图像生成

Apr, 2022

CogView2：采用分层 Transformer 技术的更快更好的文本到图像生成

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers

Ming Ding, Wendi Zheng, Wenyi Hong, Jie Tang

TL;DR本文提出了基于分层 Transformer 和本地并行自回归生成的解决方案，使用一个简单灵活的自监督任务 CogLM 进行预训练，并将其用于快速超分辨率。新的文本到图像系统 CogView2 相对于最先进的 DALL-E-2 具有非常优异的生成能力，并自然支持图像文本引导编辑。

Abstract

The development of the transformer-based text-to-image models are impeded by its slow generation and complexity for high-resolution images. In this work, we put forward a solution based on hierarchical transformers

transformer-based models text-to-image hierarchical transformers local parallel auto-regressive generation cogview2

发现论文，激发创造

用 Transformer 掌握文本到图像生成的技巧 ——CogView

提出了一个使用 4 亿多参数的 Transformer 模型 CogView 以及 VQ-VAE 分词器解决通用领域文本到图像生成问题，并展示了细调策略和预训练稳定化方法，CogView 在模糊的 MS COCO 数据集上实现了最优性能，胜过以前基于 GAN 的模型和最近的 DALL-E 相似作品。

May, 2021

基于 Transformer 的大规模预训练文字到视频生成技术 CogVideo

该研究提出 CogVideo，一个 9B 参数的 transformer 预训练模型，通过继承预训练的文本到图像模型 CogView2 进行训练，同时采用多帧率层次化训练策略以更好地对齐文本和视频片段。作为可能是第一个开源的大规模预训练文本到视频模型，CogVideo 在机器和人类评估中的表现均远超公开的模型。

May, 2022

CogView3：通过中继扩散实现更精细和更快速的文本到图像生成

CogView3 是一种基于级联框架的文本到图像生成模型，通过实现中继扩散和超分辨率技术来提升性能，在人工评估中比当前开源文本到图像扩散模型 SDXL 表现优秀 77.0%，同时只需约 1/2 的推理时间。

Mar, 2024

ERNIE-ViLG：双向视觉语言生成统一预训练

本文提出了基于 Transformer 模型的统一生成预训练框架 - ERNIE-ViLG，旨在处理双向图像 - 文本生成任务，采用图像量化模型并将图像生成和文本生成条件建模为自回归的生成任务，通过双向图像 - 文本生成建模易于实现语义对齐。在大规模数据集上进行训练，取得了针对文本 - 图像合成和图像描述任务的最佳表现。

Dec, 2021

面部图像生成和操作的开放式文本引导实现

该研究提出了一种统一框架来生成和处理面部图像，基于预训练的 GAN 模型，使用两种新颖的策略，直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵，并提出了一个大型数据集 Multi-Modal CelebA-HQ。

Apr, 2021

Idea2Img：基于 GPT-4V（ision）的迭代自我优化的自动图像设计与生成

引入了 “Idea to Image” 系统，利用 GPT-4V (Vision) 进行多模态迭代自我精炼，实现自动图像设计与生成。

Oct, 2023

快与慢的思考：利用 Transformer 进行高效的文本 - 图像检索

本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索，并将两种方法相结合，提高了检索准确性并确保了可扩展性，同时还引入了新的细粒度跨注意力架构，并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型，并在 Flickr30K 图像数据集和 VATEX 视频数据集上验证了该方法。

Mar, 2021

使用 Transformer 进行高分辨率复杂场景合成

该论文介绍了一种基于深生成模型的图像合成方法，通过压缩和离散表示学习高频细节和纹理信息，再结合自回归转换模型生成高质量的图像。

May, 2021

GIT: 用于视觉和语言的生成图像到文本的变压器

本文设计和训练了一个生成式图像到文本的转换器 ——GIT，以统一图像 / 视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模，GIT 在 12 个具有挑战性的基准测试中都取得了新的最佳表现，这些基准测试中有 TextCaps、图像分类和场景文本识别等。

May, 2022

检索、字幕、生成：视觉基础为文本生成模型增强常识

本研究探讨了利用图像中的多模态信息增强文本生成 Transformer 模型通用知识的有效方法。我们使用 BART 和 T5 进行了实验，并通过 VisCTG 方法成功地改善了通用知识、流畅性和特定性等问题的基线文本生成模型。

Sep, 2021