- STAR:基于自回归表示的按尺度文本图像生成
STAR 是一种文本到图像模型,通过采用自回归范式实现,并通过预训练文本编码器提取文本约束的表示,利用交叉注意力层提高生成图像与文本指导的交互作用,借助 2D RoPE 和归一化版本,确保不同尺度上的相对位置的一致解释,并通过超过现有基准的 - 基于文本模态的图像特征提取用于检测基于扩散的深度伪造
通过传统图像编码器提取的特征分析发现,无论是低级特征还是高级特征都对于识别不同扩散方法制作的 DeepFake 图像具有独特的优势。受到这一发现的启发,我们旨在开发一种有效的表示方法,以捕捉低级和高级特征来检测基于扩散的 DeepFakes - 无限纹理:基于文本引导的高分辨率扩散纹理合成
从文本提示生成任意大小的纹理图像的新方法,通过精调扩散模型实现单一 GPU 上任意分辨率的输出纹理图像,并展示了生成纹理在 3D 渲染和纹理转换中的两个应用。
- SDFD: 构建具有多样属性的通用合成人脸图像数据集
通过提出一种生成综合面部多样性数据集的方法,本研究旨在解决现有面部图像数据集集中在年龄、性别和肤色等少数面部属性上的问题,从而提高 AI 系统的鲁棒性。这种方法不仅包括人口统计学和生物识别特征,还涵盖了妆容、发型和配饰等非永久性特征,通过引 - 通过扩散模型生成基于日光驱动的建筑设计
本文介绍了一种基于大规模模型的以日照驱动的人工智能辅助建筑设计方法,通过生成质点模型和准确确定窗户布局,结合自然语言处理和图像生成模型,有效提高了建筑设计效率。实验结果证明,该方法支持建筑师的创造灵感,为建筑设计开辟了新的发展道路。
- 定制文本图像扩散与摄像机视角控制
模型定制将新概念引入现有的文本 - 图像模型,实现新概念在新颖语境中的生成,然而,这种方法在对象的相机视图控制方面缺乏精确性,用户必须采用指示性工程(例如添加 “俯视图”)来实现粗略的视图控制。在这项工作中,我们引入了一项新任务 -- 使模 - StoryImager:一个统一高效的故事可视化和完善框架
StoryImager 是一个双向的、统一的、高效的框架,通过增强继承于预训练的文本到图像模型的 storyboard 生成能力实现双向生成。具体而言,我们引入了一种目标框架掩码策略来扩展和统一不同的故事图像生成任务。此外,我们提出了一种框 - 让其栩栩如生:对双足卡通人物进行从文本装饰
基于输入指令,我们提出了第一次尝试在 UV 空间内,通过 Make-It-Vivid 从文本生成高质量纹理的方法,同时利用预训练的文本到图像模型生成具有模板结构的纹理映射,最终通过对抗学习缩小原始数据集和真实纹理领域之间的差距,实现了高效的 - Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型
我们提出了一种利用大语言模型(LLM)和图像生成模型的优点来创建合成图像 - 文本对的新方法,以用于视觉语言模型(VLM)的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入,我们的方法能够用合成数据训练出仅需使用人工标 - CVPRDEADiff:高效的风格扩散模型与解耦表示
通过使用 DEADiff 的两种策略解决了目前基于编码器的文本到图像模型在转换风格时导致的文本可控性下降的问题,并展示了 DEADiff 在视觉风格化方面的最佳结果和在文本到图像模型中文本可控性和与参考图像的风格相似性之间的最佳平衡。
- 通过布局学习实现解耦的 3D 场景生成
我们介绍了一种通过大型预训练的文本到图像模型实现对三维场景进行解缠的方法。我们的关键观点是,通过重新排列具有空间先验的三维场景的部分,可以发现物体的存在,并且这些重排后的场景仍然是原场景的有效配置。具体而言,我们的方法从头开始联合优化多个 - HexaGen3D:稳定扩散仅一步之遥,实现快速和多样化的文字到 3D 生成
使用预训练的 2D 扩散模型,HexaGen3D 有效地从文本提示中生成高质量的 3D 资产,并展示出对新对象或组合的强大推广能力。
- MagicVideo-V2: 多阶段高美学视频生成
MagicVideo-V2 通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到端到端视频生成流程中,可以生成具有出色保真度和平滑度的美观、高分辨率视频,在大规模用户评估中表现出比 Runway、Pika 1.0、Mor - 稳定扩散 XL 的渐进式知识蒸馏以层级损失
通过降低模型大小和知识蒸馏,我们引入了两种简化的 Stable Diffusion XL 模型 (SSD-1B 和 Segmind-Vega),并证明了在保持高质量生成能力的同时减少模型大小的有效性。
- Q-Refine:AI 生成图像的感知质量精修器
通过引入图像质量评估指标和三个自适应流程,Q-Refine 提供了一种通用的图像精细化处理方法,可以对不同质量的 AI 生成图像进行有效优化,从而扩大了 T2I 生成模型的应用。
- InstructPix2Pix 高级图像上色的微调
本研究运用细调 InstructPix2Pix 模型的方法,将语言模型 GPT-3 与文本到图像模型 Stable Diffusion 相结合,以解决 InstructPix2Pix 模型在着色领域的限制,并通过使用 IMDB-WIKI 数 - 十的生成力
使用文本到图像模型生成一致的多尺度内容,实现从广角景观到细节的极端语义缩放,通过联合多尺度扩散采样方法,保持不同尺度之间的一致性,并与传统的超分辨率方法进行对比,显示出在生成一致的多尺度内容方面,该方法最为有效。
- 同步多视角扩散下的文本引导纹理
介绍一种新颖的方法用于合成给定 3D 对象的纹理,通过预训练的文本到图像扩散模型,提出了一种同步多视点扩散方法,早期生成的纹理内容达成一致,确保纹理的一致性。
- EMNLP模型反馈下的人类学习:迭代提示与中途过程动态
通过研究用户与 Text-to-Image 模型的迭代交互,分析了用户提示的动态,发现提示在迭代过程中趋于特定特征。进一步研究表明,这种趋同既可能是用户因忽略重要细节而调整,也可能是为适应模型的偏好而产生具有特定语言风格的更好图像。初步证据 - 一种简单有效的注意力生成对抗网络基准模型
通过改进背骨网络和损失集成方法提出了 SEAttnGAN,它是一种高质量图像到文本模型,可以通过引导生成模型来提高其性能和质量。