LaDiC：扩散模型在图像生成的文本方面真的不如自回归模型吗？

Apr, 2024

LaDiC：扩散模型在图像生成的文本方面真的不如自回归模型吗？

LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation?

Yuchi Wang, Shuhuai Ren, Rundong Gao, Linli Yao, Qingyan Guo...

TL;DRDiffusion models have the potential for enhancing image-to-text generation and surpass Auto-Regressive models by introducing LaDiC, which incorporates context modeling, a dedicated latent space for captions, a regularization module, a diffuser for semantic conversion, and a Back&Refine technique, achieving state-of-the-art performance on the MS COCO dataset without pre-training or ancillary modules.

Abstract

diffusion models have exhibited remarkable capabilities in text-to-image generation. However, their performance in image-to-text generation, specifically image captioning, has lagged behind Auto-Regressive (AR) m

diffusion models image-to-text generation auto-regressive models context modeling ladic

发现论文，激发创造

AR-Diffusion: 自回归扩散模型用于文本生成

介绍了一种新的生成文本的方法 - 自回归扩散 (AR-Diffusion)，它通过引入动态去噪步骤来解决自然语言中的顺序依赖问题，在各种文本生成任务中表现优异。

May, 2023

文本扩散模型的迁移学习

我们研究了文本扩散能否替代自回归（AR）解码用于大型语言模型（LLMs）的训练和部署，并测试了通过一种轻量级适应过程称为 ``AR2Diff'' 将预训练的 AR 模型转换为文本扩散模型的潜力。我们发现，训练仅具有前缀 LM 目标的解码器模型在多项任务中表现最好。此外，我们还观察到通过 AR2Diff 对 AR 模型进行改进，并发现使用扩散解码的扩散模型比 AR 模型在多种情况下表现出更好的结果。这些结果非常有前景，因为相对未被充分探索的文本扩散比长文本生成的 AR 解码速度更快。

Jan, 2024

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022

Emage: 非自回归式文本到图像生成

非自回归模型在生成图像时具有高效生成大量图像标记、低推理延迟等特点，与自回归模型相比，其参数规模为 346M，使用一台 V100 GPU 在 1 秒内生成了一张 256×256 像素的高质量图像。

Dec, 2023

去扩散使文本成为强大的跨模态接口

我们展示了一种以文本作为强大的跨模态接口的方法，通过将图像表示为文本，利用自然语言的可解释性和灵活性，我们使用一个自动编码器，将输入图像转换为文本，并通过固定的文本到图像扩散解码器进行重构，该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性，使其可以轻松地被一般的文本到图像工具和 LLMs 接收，并可用于多样化的多模态任务。

Nov, 2023

简单有效的遮掩扩散语言模型

简化的掩码离散扩散模型在语言建模方面的性能优于以往认为的水平，可以用于训练只有编码器的高效采样语言模型，并在语言建模基准测试中取得了最新的最佳结果。

Jun, 2024

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

DiffCap：探索连续扩散在图像字幕生成中的应用

本文提出了一种基于连续扩散的新方法 ——DiffCap，用于图像标题生成中的多模态特征融合。相比于自回归式的方法，DiffCap 采用了非自回归式方法，可在生成时提供更高的多样性与灵活性。实验结果表明，我们的方法在保证生成品质的同时，使用了更加简单的结构，这一设计将会启发更多关于多模态生成任务方面的研究。

May, 2023

强化条件下的文本扩散

通过分析文本扩散模型的限制，本文提出了一种名为 TREC 的新型文本扩散模型，通过强化条件和时间感知方差缩放来减轻语言离散性问题，在与自回归、非自回归和扩散基线的对比实验中展示了 TREC 的竞争力，并通过定性分析显示其在优化样本中充分利用扩散过程的先进能力。

Feb, 2024

Kaleido 扩散：通过自回归潜在建模改进条件扩散模型

Kaleido 是一种改进图像生成多样性的方法，它利用自回归潜变量先验来增加样本的多样性，通过整合自回归语言模型编码原始说明并生成潜变量，以作为抽象和中间表示来指导和促进图像生成过程，从而提供更多样化的输出。

May, 2024