基于语义条件扩散网络的图像字幕生成

Dec, 2022

基于语义条件扩散网络的图像字幕生成

Semantic-Conditional Diffusion Networks for Image Captioning

Jianjie Luo, Yehao Li, Yingwei Pan, Ting Yao, Jianlin Feng...

TL;DR本文提出了一种基于 Semantic-Conditional Diffusion Networks（SCD-Net）的图像字幕生成模型，用于有效捕捉离散单词间的依赖性并实现复杂的视觉语言对齐，并采用自举序列训练策略稳定扩散过程，实验证明其在 COCO 数据集上取得了很好的表现。

Abstract

Recent advances on text-to-image generation have witnessed the rise of diffusion models which act as powerful generative models. Nevertheless, it is not trivial to exploit such latent variable models to capture t

text-to-image generation diffusion models image captioning semantic-conditional diffusion networks self-critical sequence training

发现论文，激发创造

扩散模型是一个无需训练的开放词汇语义切分工具

最近的研究探讨了利用预训练的文本 - 图像判别模型（如 CLIP）来解决与开放词汇语义分割相关的挑战。然而，值得注意的是，这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失，这对于实现准确的语义分割至关重要。最近，人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域，特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此，我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力，并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言，通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型，由去噪 U-Net 产生的交叉注意力图直接用作分割分数，然后由后续的自注意力图进一步细化和完成分割。此外，我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明，所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。

Sep, 2023

潜在扩散中的场景图条件

利用 ControlNet 和 Gated Self-Attention，我们提出了多种方法来解决稀缺的图像和场景图数据，通过场景图生成高质量图像，超越了之前的方法。

Oct, 2023

Semantica: 一种适应性图像条件扩散模型

我们研究了在不进行微调的情况下将图像生成模型适应于不同数据集的任务。为此，我们介绍了 Semantica，这是一种基于图像语义条件的扩散模型，能够根据条件图像的语义生成图像。Semantica 仅通过网络规模的图像配对进行训练，即它接收来自网页的随机图像作为条件输入，并对来自同一网页的另一张随机图像进行建模。我们的实验突出了预训练图像编码器的表现力，以及在实现高质量图像生成时基于语义的数据过滤的必要性。一旦训练完成，它可以通过简单地使用该数据集中的图像作为输入自适应地生成新图像。我们研究了在 ImageNet、LSUN Churches、LSUN Bedroom 和 SUN397 上的 Semantica 的转移性质。

May, 2024

运动乐章：将静态图像转化为动态视频

通过将语义和动作线索整合到扩散模型中，我们引入了一种用于视频生成的新方法，它显著提升了视频质量、动作精度和语义连贯性。

Mar, 2024

利用丰富上下文条件扩散模型提升故事可视化一致性

提出了一种新颖的富上下文条件扩散模型 (RCDMs)，旨在增强故事生成的语义一致性和时间一致性，通过在第一阶段使用先验帧转换扩散模型来预测未知片段的帧语义嵌入，通过在第二阶段将富上下文条件注入图像和特征级别来生成一致的故事。

Jul, 2024

区分性扩散模型作为几个少样本视觉和语言学习器

该论文提出了一种名为 DSD 的创新方法，它利用预训练的 text-to-image 扩散模型进行少样本判别性学习，并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响，并通过基于注意力的提示学习对模型进行微调，实现图文匹配，并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。

May, 2023

DiffCap：探索连续扩散在图像字幕生成中的应用

本文提出了一种基于连续扩散的新方法 ——DiffCap，用于图像标题生成中的多模态特征融合。相比于自回归式的方法，DiffCap 采用了非自回归式方法，可在生成时提供更高的多样性与灵活性。实验结果表明，我们的方法在保证生成品质的同时，使用了更加简单的结构，这一设计将会启发更多关于多模态生成任务方面的研究。

May, 2023

LaDiC：扩散模型在图像生成的文本方面真的不如自回归模型吗？

Diffusion models have the potential for enhancing image-to-text generation and surpass Auto-Regressive models by introducing LaDiC, which incorporates context modeling, a dedicated latent space for captions, a regularization module, a diffuser for semantic conversion, and a Back&Refine technique, achieving state-of-the-art performance on the MS COCO dataset without pre-training or ancillary modules.

Apr, 2024

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

基于无条件扩散模型的实时文本驱动图像操作

该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Apr, 2023