通过草堆中的靓丽针使图像生成模型更上一层楼

Sep, 2023

通过草堆中的靓丽针使图像生成模型更上一层楼

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang...

TL;DR通过在网络规模的图像 - 文本对上训练文本到图像模型，可以从文本生成广泛的视觉概念，但是这些经过预训练的模型在生成高度美学化图像方面往往面临挑战，因此需要进行美学对齐的预训练后处理。本文中，我们提出了质量微调方法，以有效地指导经过预训练的模型专门生成高度视觉吸引力图像，同时保持对视觉概念的普适性。我们的关键洞察是，使用一组数量惊人少但极具视觉吸引力的图像进行有监督的精细调整可以显著提高生成质量。我们在 11 亿个图像 - 文本对上预训练潜在扩散模型，并仅使用几千个精心挑选的高质量图像进行微调。得到的模型 Emu 在美学上的胜率为 82.9％，相比仅经过预训练的模型。与最先进的 SDXLv1.0 相比，在标准的 PartiPrompts 和我们的基于真实世界文本到图像模型使用情况的 Open User Input 基准测试上，Emu 被优先选择的概率分别为 68.4％和 71.3％。此外，我们还展示了质量微调是一种通用方法，在其他架构中也同样有效，包括像素扩散和掩膜生成变压器模型。

Abstract

training text-to-image models with web scale image-text pairs enables the generation of a wide range of visual concepts from text. However, these pre-trained models often face challenges when it comes to generati

training text-to-image models aesthetic alignment quality-tuning generation quality

发现论文，激发创造

多模态生成预训练

本文介绍了 Emu—— 一种基于 Transformer 的多模态基础模型，它可以在多模态语境中无缝生成图像和文本。该模型可通过单一模型进行全自回归训练，将任何单模态或多模态数据输入混合 (例如，交错的图像、文本和视频)，并表现得十分出色。

Jul, 2023

基于对齐增强的补丁级预训练文档图像模型调优

本文提出了一个新的模型结构，即 AETNet，使用带有对齐目标的下游任务进行 fine-tuning，同时引入了额外的可视化和文本转换器进行多模态融合，以实现更好的性能表现。该模型考虑了三个方面的对齐：文档级别对齐、全局 - 本地对齐和局部级别对齐，并在各种下游任务中实现了最先进的性能表现。

Nov, 2022

鸸鹋编辑：通过识别和生成任务进行精确图像编辑

Emu Edit 是一个多任务图像编辑模型，通过训练在广泛的任务上展示出卓越的性能，引入了学习任务嵌入来指导生成过程，使其能够成功执行用户的自然语言指令，并且能够推广到新的任务，并发布了一个多样化的基准模型进行评估。

Nov, 2023

使用小型语言模型来微调大型语言模型的仿真器

通过借鉴 RL 的框架，引入了一种名为模拟微调（EFT）的技术，从而将预训练和微调的知识与技能解耦，并且通过扩大微调的规模来提高可帮助性，扩大预训练的规模来提高事实性，从而实现在测试时调整不同行为特征的方法，而无需额外训练。

Oct, 2023

鸸鹋视频：通过明确图像调节来因式分解文本到视频生成

我们提出了 Emu Video，一个文本到视频生成模型，将生成过程分解为两个步骤：首先根据文本生成图像，然后根据文本和生成的图像生成视频。我们确定了关键的设计决策 - 对扩散进行调整的噪声计划和多阶段训练，使我们能够直接生成高质量高分辨率的视频，而无需像之前的工作那样需要一系列深度模型级联。在人工评估中，与所有之前的工作相比，我们生成的视频在质量上都得到了极高的评价 - 相对于 Google 的 Imagen Video 为 81%，Nvidia 的 PYOCO 为 90%，Meta 的 Make-A-Video 为 96%。我们的模型胜过商业解决方案如 RunwayML 的 Gen2 和 Pika Labs。最后，我们的分解方法自然地提供了根据用户的文本提示给图像赋予动画效果的能力，在这方面，我们的生成结果相对于之前的工作得到了 96% 的偏好。

Nov, 2023

利用合成标题改进图像文本生成

通过使用 SDXL，我们提出一种低成本的微调技术来改善不同情况下文本生成的准确性，并通过将随机字符添加到原始数据集中来提高模型在生成良好形式视觉文本方面的性能。

Jun, 2024

SUR-adapter：使用大型语言模型增强文本到图像预训练扩散模型

该研究探讨了如何改进文本生成图像的模型的问题，提出了一种称为 Semantic Understanding and Reasoning adapter (SUR-adapter) 的参数高效微调方法，以提高短文本输入的语义理解和常识推理能力，进而用提高的文本语义表征生成高质量图像。

May, 2023

Lafite2: 少样本文本到图像生成

本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法，通过检索和优化过程综合生成伪文本特征，可以灵活应用于各种情境和模型，并在实验中表现出显著的效果，GAN 模型在完全监督的情况下得到了 6.78 的 FID，是 GAN 最新的 SoTA 结果。

Oct, 2022

文本到贴纸：人类表情的风格定制潜扩散模型

使用 Style Tailoring 方法，在高视觉质量、提示对齐和场景多样性方面微调潜在扩散模型（LDMs），并选择贴纸图像生成作为目标领域。评估结果显示，与基础的 Emu 模型进行提示工程相比，在视觉质量提高了 14％、提示对齐提高了 16.2％和场景多样性提高了 15.3％。

Nov, 2023

利用人类反馈对齐文本与图像模型

本文介绍了一种 Fine-Tuning 方法，使用人类反馈对齐文本到图像的 Deep generative model，通过分析设计选择平衡对齐 - 准确性的权衡，最终通过奖励加权似然优化，使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明，利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。

Feb, 2023