- 文本到图像扩散模型中的空间理解解锁
我们提出了 CompFuser,这是一个图像生成管道,可以增强文本到图像生成模型中的空间理解和属性分配。该管道能够解释定义场景中物体之间空间关系的指令,并生成相应的图像,为用户提供更多的控制。通过在生成多个对象时将其解码成迭代步骤:首先生成 - 推导出您的布局:从大型语言模型中归纳出用于文本到图像合成的布局模式
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
- DreamCreature: 从想象中创造逼真的虚拟生物
通过利用未标记图像和无监督方法,DreamCreature 提出了一种新的文本生成图像模型,能够生成具有丰富结构和逼真外观的新生物种类,以促进创意应用和属性修改。
- SelfEval:利用生成模型的判别性质进行评估
使用文本到图像生成模型的自动化方法 SelfEval,可用于评估生成模型在多模态文本 - 图像辨别任务中的性能,并展示其与人工评估结果在文本忠实性上具有高度一致性。
- 跨图像注意力的零样本外观转换
利用文本到图像生成模型中的语义知识,在具有相似语义但形状可能差异大的物体之间进行视觉外观转换,通过建立跨图像的注意力机制和利用噪声编码或模型内部表示来提高输出图像质量,实现了零训练的目标。
- 特定提示的文本到图像生成模型的毒化攻击
通过对海量训练数据集的文本到图像生成模型进行训练数据污染,本研究表明可以成功进行生成模型的污染攻击,通过优化的 Prompt-specific Nightshade 攻击,可以使用少于 100 个毒样本破坏生成模型的稳定扩散,并提出将 Ni - GenEval: 评估文本与图像对齐的对象为中心框架
通过 GenEval 评估框架,我们展示了当前目标检测模型可用于评估各种生成任务的文本到图像模型,并分析其生成能力。我们发现最近的模型在这些任务上有显著改进,但在空间关系和属性绑定等复杂能力方面仍有缺失。最后,我们展示了如何使用 GenEv - ObjectComposer: 一致生成多个对象而无需进行微调
现有的文本到图像生成模型在不同语境中生成相同外观的对象方面存在困难,本论文介绍了一种名为 ObjectComposer 的方法,通过不修改底层模型的权重,训练了一种无需 fine-tuning 的方法,可一次生成多个特定对象的组合。
- FT-Shield:一种针对文本到图像扩散模型的未经授权微调的水印
基于潜在扩散模型的文本生成图像模型通过语言提示展现出了出色的能力,但由于版权侵犯的普遍担忧,本文提出了一种针对文本生成图像模型的水印方法 FT-Shield,以帮助检测侵权的情况。经过全面实验证明了 FT-Shield 的有效性。
- InstructCV: 信息指导下的图文扩散模型作为视觉通才
最近,在生成式扩散模型方面取得的进展使得文本控制下合成逼真多样的图像具备了令人印象深刻的质量。但尽管取得了这些显著进展,将文本到图像生成模型应用于标准视觉识别任务的研究仍然有限。本文提出了一种计算机视觉任务的统一语言界面,该界面抽象了任务的 - 动态提示学习:解决文本为基础的图像编辑中的交叉注意力泄漏问题
基于大规模的文本到图像生成模型,本研究针对图像编辑的问题,通过动态提示学习 (DPL) 方法修复交叉注意力图,实现对特定对象的精细图像编辑,防止对其他图像区域的意外更改。通过广泛的评估,DPL 方法在多个指标上取得了卓越的结果,尤其是在复杂 - 从 LyCORIS 微调到模型评估的文本到图像自定义导航
文本到图像生成模型中的关键问题是稳定的扩散和微调方法的系统评估与参数调整,并提供了对微调参数细微影响的重要见解。
- 通过渐进图像处理模拟疾病进展
通过 Progressive Image Editing (PIE) 框架,结合文本 - 图像生成模型,开发了一种可以精确模拟疾病进展的工具,可提供医学研究和临床实践所需的实际标准的疾病进展图像,用于疾病诊断、预后和治疗的相关领域。
- ICCVITI-GEN:包容性文本到图像生成
通过利用现有的参考图像,提出了一种无需模型微调的生成模型,并在代表所有所需属性类别的图像上进行大幅改进。
- 创造你的世界:终身文本生成图像
通过 L2DM 框架,本文研究了文本到图像生成模型中的知识遗忘和语义忽视问题,通过任务感知内存增强模块、弹性概念精馏模块、概念关注艺术家模块和正交关注模块,生成更准确、更忠实的图像。
- SSMG:基于空间 - 语义地图引导的自由式布局图像生成的扩散模型
该研究介绍了一种采用特征图作为引导的新型空间 - 语义地图引导扩散模型 (SSMG),通过丰富的空间和语义信息,实现了优于以往工作的生成质量和充足的空间和语义可控性。实验结果表明,SSMG 在保真度、多样性和可控性等多个指标上取得了非常有前 - ConceptLab:使用扩散先验约束的创造性生成
这篇论文介绍了创造性文本到图像生成的任务,并使用未经研究的扩散先验模型来解决此问题,同时通过一个问题回答模型来逐渐发现越来越独特的创作,最后展示了先验约束不仅作为强大的混合机制,还能引入更多的灵活性。
- 绕过文本到图像生成模型的概念消除方法
从文本到图像生成模型到 AI 安全的概念消除方法,这篇论文研究了五种最近提出的概念消除方法,并展示了这些方法中没有一个能完全抹除目标概念,并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回,这突显了事后概念消除方法的脆弱性,并 - 图像标题是文本到图像模型的自然提示
论文理论分析了合成数据的训练效果和提示诱导的合成数据分布之间的关系,并相应地提出了一种简单而有效的方法,通过图像字幕和类名来提示生成模型,从而合成更具信息性和多样性的训练数据。实验证明,该方法显着提高了在合成训练数据上训练的模型的表现。
- ICML文本 + 草图:超低比特率图像压缩
该论文研究了如何将基于 Billion-scale 数据集预训练的文本到图片生成模型用于图像压缩,并证明这些模型可以在很低的比特率情况下实现比学习压缩器更好的感知和语义保真度。