DiffuSIA：编码器 - 解码器文本扩散的螺旋交互结构

May, 2023

DiffuSIA：编码器 - 解码器文本扩散的螺旋交互结构

DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text Diffusion

Chao-Hong Tan, Jia-Chen Gu, Zhen-Hua Ling

TL;DR本文提出一种基于编码器 - 解码器扩展结构的文本扩散算法（DiffuSIA），并在四种文本生成任务上得到了有效和具有竞争力的性能。

Abstract

diffusion models have emerged as the new state-of-the-art family of deep generative models, and their promising potentials for text generation have recently attracted increasing attention. Existing studies mostly

diffusion models encoder-decoder architecture text generation multilingual generation open-domain dialogue generation

发现论文，激发创造

去扩散使文本成为强大的跨模态接口

我们展示了一种以文本作为强大的跨模态接口的方法，通过将图像表示为文本，利用自然语言的可解释性和灵活性，我们使用一个自动编码器，将输入图像转换为文本，并通过固定的文本到图像扩散解码器进行重构，该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性，使其可以轻松地被一般的文本到图像工具和 LLMs 接收，并可用于多样化的多模态任务。

Nov, 2023

SeqDiffuSeq：带有编码器 - 解码器变压器的文本扩散

本文研究使用扩散模型（diffusion model）来处理序列到序列文本生成问题，探讨扩散模型的优越生成性能是否可转移到自然语言领域。提出 SeqDiffuSeq，一种使用自适应噪声调度技术的文本扩散模型，结合自编码器变压器（encoder-decoder Transformers）架构，实现去噪声函数建模，通过实验得出扩散模型在文本生成的质量和推理时间方面都表现良好。

Dec, 2022

信息扩散：对非自回归文本生成的信息熵感知扩散过程

通过引入 “关键信息优先” 生成策略和基于文本信息量的噪声调度，结合自我条件限制和部分加噪模型结构，InfoDiffusion 在生成质量、多样性和采样效率等方面优于基准模型。

Oct, 2023

使用双编码器改进场景文本编辑的扩散模型

DIFFSTE 是一个改善预训练扩散模型性能的双编码器设计框架，通过指令调整训练，实现了场景文本编辑中正确文本渲染和风格控制的任务，使其具有零 - shot 泛化能力。

Apr, 2023

基于语义条件扩散网络的图像字幕生成

本文提出了一种基于 Semantic-Conditional Diffusion Networks（SCD-Net）的图像字幕生成模型，用于有效捕捉离散单词间的依赖性并实现复杂的视觉语言对齐，并采用自举序列训练策略稳定扩散过程，实验证明其在 COCO 数据集上取得了很好的表现。

Dec, 2022

IPAD：一种基于迭代、并行和扩散的场景文本识别网络

提出了一种使用并行和迭代解码器，并采用易先原则解码策略的替代方案，将文本识别视为基于图像的条件文本生成任务，并采用离散扩散策略，确保双向上下文信息的穷举性探索。大量实验证明，该方法在基准数据集上取得了优越的结果，包括中英文文本图像。

Dec, 2023

DiffEnc：学得的编码器的变分扩散

用两种改进的扩散模型，DiffEnc 和具有权重参数的扩散损失方法，实现了最先进的 CIFAR-10 评估结果，同时探索了有限深度层次结构和无限深度层次结构中扩散模型的性质。

Oct, 2023

eDiff-I：使用专家去噪模型集合的文本到图像扩散模型

该研究提出了一种基于扩散的生成模型，通过设计针对迭代生成过程的特殊模型，实现了更好的文本对齐，利用不同嵌入技术对模型进行调整，实现对参考图像风格进行自适应转换，并展示了一种 “文字涂鸦” 的技术，可帮助用户控制所需的图像输出。

Nov, 2022

LaDiC：扩散模型在图像生成的文本方面真的不如自回归模型吗？

Diffusion models have the potential for enhancing image-to-text generation and surpass Auto-Regressive models by introducing LaDiC, which incorporates context modeling, a dedicated latent space for captions, a regularization module, a diffuser for semantic conversion, and a Back&Refine technique, achieving state-of-the-art performance on the MS COCO dataset without pre-training or ancillary modules.

Apr, 2024

AltDiffusion: 多语言文本到图像扩散模型

AltDiffusion 是一种新颖的多语种 T2I 扩散模型，它支持 18 种不同语言，并且在生成高质量图像方面优于现有的 T2I 模型，尤其是在理解文化特定概念方面。

Aug, 2023