CogView2:采用分层 Transformer 技术的更快更好的文本到图像生成
提出了一个使用 4 亿多参数的 Transformer 模型 CogView 以及 VQ-VAE 分词器解决通用领域文本到图像生成问题,并展示了细调策略和预训练稳定化方法,CogView 在模糊的 MS COCO 数据集上实现了最优性能,胜过以前基于 GAN 的模型和最近的 DALL-E 相似作品。
May, 2021
该研究提出 CogVideo,一个 9B 参数的 transformer 预训练模型,通过继承预训练的文本到图像模型 CogView2 进行训练,同时采用多帧率层次化训练策略以更好地对齐文本和视频片段。作为可能是第一个开源的大规模预训练文本到视频模型,CogVideo 在机器和人类评估中的表现均远超公开的模型。
May, 2022
CogView3 是一种基于级联框架的文本到图像生成模型,通过实现中继扩散和超分辨率技术来提升性能,在人工评估中比当前开源文本到图像扩散模型 SDXL 表现优秀 77.0%,同时只需约 1/2 的推理时间。
Mar, 2024
本文提出了基于 Transformer 模型的统一生成预训练框架 - ERNIE-ViLG,旨在处理双向图像 - 文本生成任务,采用图像量化模型并将图像生成和文本生成条件建模为自回归的生成任务,通过双向图像 - 文本生成建模易于实现语义对齐。在大规模数据集上进行训练,取得了针对文本 - 图像合成和图像描述任务的最佳表现。
Dec, 2021
该研究提出了一种统一框架来生成和处理面部图像,基于预训练的 GAN 模型,使用两种新颖的策略,直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵,并提出了一个大型数据集 Multi-Modal CelebA-HQ。
Apr, 2021
引入了 “Idea to Image” 系统,利用 GPT-4V (Vision) 进行多模态迭代自我精炼,实现自动图像设计与生成。
Oct, 2023
本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索,并将两种方法相结合,提高了检索准确性并确保了可扩展性,同时还引入了新的细粒度跨注意力架构,并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型,并在 Flickr30K 图像数据集和 VATEX 视频数据集上验证了该方法。
Mar, 2021
本文设计和训练了一个生成式图像到文本的转换器 ——GIT,以统一图像 / 视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模,GIT 在 12 个具有挑战性的基准测试中都取得了新的最佳表现,这些基准测试中有 TextCaps、图像分类和场景文本识别等。
May, 2022
本研究探讨了利用图像中的多模态信息增强文本生成 Transformer 模型通用知识的有效方法。我们使用 BART 和 T5 进行了实验,并通过 VisCTG 方法成功地改善了通用知识、流畅性和特定性等问题的基线文本生成模型。
Sep, 2021