DiffCap：探索连续扩散在图像字幕生成中的应用

May, 2023

DiffCap：探索连续扩散在图像字幕生成中的应用

DiffCap: Exploring Continuous Diffusion on Image Captioning

Yufeng He, Zefan Cai, Xu Gan, Baobao Chang

TL;DR本文提出了一种基于连续扩散的新方法 ——DiffCap，用于图像标题生成中的多模态特征融合。相比于自回归式的方法，DiffCap 采用了非自回归式方法，可在生成时提供更高的多样性与灵活性。实验结果表明，我们的方法在保证生成品质的同时，使用了更加简单的结构，这一设计将会启发更多关于多模态生成任务方面的研究。

Abstract

Current image captioning works usually focus on generating descriptions in an autoregressive manner. However, there are limited works that focus on generating descriptions non-autoregressively, which brings more decoding diversity. Inspired by the success of →

image captioning non-autoregressive method diffusion models multimodal features decoding flexibility

发现论文，激发创造

LaDiC：扩散模型在图像生成的文本方面真的不如自回归模型吗？

Diffusion models have the potential for enhancing image-to-text generation and surpass Auto-Regressive models by introducing LaDiC, which incorporates context modeling, a dedicated latent space for captions, a regularization module, a diffuser for semantic conversion, and a Back&Refine technique, achieving state-of-the-art performance on the MS COCO dataset without pre-training or ancillary modules.

Apr, 2024

前缀扩散：用于多样化图像描述的轻量级扩散模型

我们提出了一种轻量级的图像描述网络，结合了连续扩散，称为 Prefix-diffusion，它能够在保持流畅性和相关性的同时生成多样化的描述，同时减少可训练参数，为图像描述模型的扩展奠定了基础。

Sep, 2023

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022

应用扩散模型进行图像字幕的多模态数据增强

本研究提出了一种基于多模态数据增强技术的图像字幕生成方法，旨在解决图像字幕对齐困难的问题。实验证明，本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集，从而提高模型的训练效率和预测准确性。

May, 2023

文本生成的自条件嵌入扩散

本研究提出了自条件嵌入扩散 (Self-conditioned Embedding Diffusion)，这是一种在令牌嵌入上运行的连续扩散机制，可以学习灵活和可扩展的扩散模型，用于条件和非条件文本生成。通过定性和定量评估，我们表明，我们的文本扩散模型生成的样本与标准自回归语言模型生成的样本相当，而在推断时间上在加速器硬件上更为高效。该研究为在文本方面扩大扩散模型的规模，类似于自回归模型，并通过对连续扩散的最新改进来提高性能铺平了道路。

Nov, 2022

DECap: 通过扩散机制实现广义显式标题编辑

Diffusion-based Explicit Caption editing (DECap) is proposed as a method to refine reference captions by formulating the task as a denoising process, enabling strong generalization ability and improving the quality and controllability of caption generation.

Nov, 2023

基于语义条件扩散网络的图像字幕生成

本文提出了一种基于 Semantic-Conditional Diffusion Networks（SCD-Net）的图像字幕生成模型，用于有效捕捉离散单词间的依赖性并实现复杂的视觉语言对齐，并采用自举序列训练策略稳定扩散过程，实验证明其在 COCO 数据集上取得了很好的表现。

Dec, 2022

Diff-CAPTCHA: 基于去噪扩散模型提升安全性的图像验证码

通过使用扩散模型生成图像，文中介绍了一种名为 Diff-CAPTCHA 的图像点击 CAPTCHA 方案，该方案通过减弱用于机器学习的字符特征、增加 CAPTCHA 中字符特征的多样性以及增加破解算法的难度，有效提高了 CAPTCHA 的安全性。研究还通过多种攻击方法验证了 Diff-CAPTCHA 的安全性，并将其与三种基准方案进行了比较，实验结果表明，扩散模型在提高 CAPTCHA 安全性的同时能够保持良好的人类可用性。

Aug, 2023

FreeSeg-Diff：基于扩散模型的无需训练的开放词汇分割

该论文研究了基于开源预训练模型的零样本、无需训练的图像分割方法，通过结合不同的小型基础模型，利用扩散模型生成的特征，以及基于 CLIP 模型进行开放性词汇处理，实现了在 Pascal VOC 和 COCO 数据集上超越许多基于训练的方法并与最近的弱监督分割方法相媲美的结果。

Mar, 2024

去扩散使文本成为强大的跨模态接口

我们展示了一种以文本作为强大的跨模态接口的方法，通过将图像表示为文本，利用自然语言的可解释性和灵活性，我们使用一个自动编码器，将输入图像转换为文本，并通过固定的文本到图像扩散解码器进行重构，该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性，使其可以轻松地被一般的文本到图像工具和 LLMs 接收，并可用于多样化的多模态任务。

Nov, 2023