使用扩散模型揭示文本 - 图像不一致性

Apr, 2024

使用扩散模型揭示文本 - 图像不一致性

Exposing Text-Image Inconsistency Using Diffusion Models

Mingzhen Huang, Shan Jia, Zhou Zhou, Yan Ju, Jialing Cai...

TL;DR为了解决在线误导信息的问题，该研究引入了 D-TIIL（基于扩散的文本 - 图像不一致性定位），采用文本对图像扩散模型来定位文本和图像对中的语义不一致性，并通过文本嵌入和修改后的图像区域进行可视化。

Abstract

In the battle against widespread online misinformation, a growing problem is text-image inconsistency, where images are misleadingly paired with texts with different intent or meaning. Existing →

online misinformation text-image inconsistency classification-based methods d-tiil semantic inconsistencies

发现论文，激发创造

多样性和扩散：对稳定扩散下合成图像分布的观察

通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究，揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题，同时提出了对 CLIP 嵌入几何的令人惊讶的见解。

Oct, 2023

评估文本到图像扩散模型对真实攻击的鲁棒性

本研究对文本到图像扩散模型进行了鲁棒性评估，考虑到实际应用中可能存在的各种语义一致但现实错误的攻击方式，揭示了该模型的鲁棒性问题。

Jun, 2023

信息丰富的扩散模型的段落到图像生成

介绍了一种信息丰富的扩散模型，名为 ParaDiffusion，用于段落到图像生成任务，通过利用大型语言模型来提升图像生成模型的语义理解能力，并在长文本语义对齐训练方面取得了优异结果。

Nov, 2023

通过扩散模型的类间图片混合提升图像分类

通过 Diff-Mix 方法进行图像翻译以实现数据增强，实现更好的忠实度和多样性平衡，从而在各种图像分类场景中显著提高性能。

Mar, 2024

UDiffText: 通过字符感知扩散模型在任意图像中实现高质量文本合成的统一框架

使用预训练扩散模型（即 Stable Diffusion [27]）进行文本图像生成的新方法，通过设计和训练轻量级字符级文本编码器，以更强的文本嵌入作为条件指导，使用大规模数据集微调扩散模型，在字符级分割图的监督下实现局部注意控制，通过推断阶段的优化过程，在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术，并展示了 UDiffText 的几个潜在应用，包括以文本为中心的图像合成、场景文本编辑等。

Dec, 2023

孤立扩散：多概念文本到图像生成的优化 —— 在自由训练中使用孤立扩散引导

通过单独的扩散过程和修订方法，本研究提出了一种针对大规模文本到图像扩散模型的通用方法，以解决复杂场景中不同主题及其附件之间的相互干扰，追求更好的文本图像一致性。

Mar, 2024

基于直接一致性优化的文本到图像个性化

通过最大化与参考图像的一致性并惩罚与预训练模型的偏差，我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标，称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力，并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后，我们强调必须使用详尽的标题作为参考图像，以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面（this https URL）中找到。

Feb, 2024

消除文本到图像扩散模型的偏见

目前的学习型文本到图像模型存在社会偏见问题，本研究提出了一种基于迭代分布对齐的方法，通过权重优化来解决社会偏见问题。

Feb, 2024

基于视觉概念驱动的文字到图像扩散模型的图像生成

我们提出了一个概念驱动的文本到图像（TTI）个性化框架，通过学习用户提供的图像示例中的概念，以及一种交替优化过程，进一步改进了现有的 TTI 模型，使其能够生成具有多个交互概念的图像。

Feb, 2024

信息论文本到图像对齐

基于信息论对齐度量的自监督微调方法对模型对齐问题进行了研究，在文字到图像生成任务中获得了与最新技术相媲美或超过的结果，并且只需要一个预训练的去噪网络来估计互信息和一个轻量级微调策略。

May, 2024