DiffCap:探索连续扩散在图像字幕生成中的应用
Diffusion models have the potential for enhancing image-to-text generation and surpass Auto-Regressive models by introducing LaDiC, which incorporates context modeling, a dedicated latent space for captions, a regularization module, a diffuser for semantic conversion, and a Back&Refine technique, achieving state-of-the-art performance on the MS COCO dataset without pre-training or ancillary modules.
Apr, 2024
我们提出了一种轻量级的图像描述网络,结合了连续扩散,称为 Prefix-diffusion,它能够在保持流畅性和相关性的同时生成多样化的描述,同时减少可训练参数,为图像描述模型的扩展奠定了基础。
Sep, 2023
该研究论文讨论了扩散模型在离散领域(如语言)的应用,提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法,并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型,演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线,还支持可控的生成。
Dec, 2022
本研究提出了一种基于多模态数据增强技术的图像字幕生成方法,旨在解决图像字幕对齐困难的问题。实验证明,本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集,从而提高模型的训练效率和预测准确性。
May, 2023
本研究提出了自条件嵌入扩散 (Self-conditioned Embedding Diffusion),这是一种在令牌嵌入上运行的连续扩散机制,可以学习灵活和可扩展的扩散模型,用于条件和非条件文本生成。通过定性和定量评估,我们表明,我们的文本扩散模型生成的样本与标准自回归语言模型生成的样本相当,而在推断时间上在加速器硬件上更为高效。该研究为在文本方面扩大扩散模型的规模,类似于自回归模型,并通过对连续扩散的最新改进来提高性能铺平了道路。
Nov, 2022
Diffusion-based Explicit Caption editing (DECap) is proposed as a method to refine reference captions by formulating the task as a denoising process, enabling strong generalization ability and improving the quality and controllability of caption generation.
Nov, 2023
本文提出了一种基于 Semantic-Conditional Diffusion Networks(SCD-Net)的图像字幕生成模型,用于有效捕捉离散单词间的依赖性并实现复杂的视觉语言对齐,并采用自举序列训练策略稳定扩散过程,实验证明其在 COCO 数据集上取得了很好的表现。
Dec, 2022
通过使用扩散模型生成图像,文中介绍了一种名为 Diff-CAPTCHA 的图像点击 CAPTCHA 方案,该方案通过减弱用于机器学习的字符特征、增加 CAPTCHA 中字符特征的多样性以及增加破解算法的难度,有效提高了 CAPTCHA 的安全性。研究还通过多种攻击方法验证了 Diff-CAPTCHA 的安全性,并将其与三种基准方案进行了比较,实验结果表明,扩散模型在提高 CAPTCHA 安全性的同时能够保持良好的人类可用性。
Aug, 2023
该论文研究了基于开源预训练模型的零样本、无需训练的图像分割方法,通过结合不同的小型基础模型,利用扩散模型生成的特征,以及基于 CLIP 模型进行开放性词汇处理,实现了在 Pascal VOC 和 COCO 数据集上超越许多基于训练的方法并与最近的弱监督分割方法相媲美的结果。
Mar, 2024
我们展示了一种以文本作为强大的跨模态接口的方法,通过将图像表示为文本,利用自然语言的可解释性和灵活性,我们使用一个自动编码器,将输入图像转换为文本,并通过固定的文本到图像扩散解码器进行重构,该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性,使其可以轻松地被一般的文本到图像工具和 LLMs 接收,并可用于多样化的多模态任务。
Nov, 2023