Dec, 2022

基于语义条件扩散网络的图像字幕生成

TL;DR本文提出了一种基于 Semantic-Conditional Diffusion Networks(SCD-Net)的图像字幕生成模型,用于有效捕捉离散单词间的依赖性并实现复杂的视觉语言对齐,并采用自举序列训练策略稳定扩散过程,实验证明其在 COCO 数据集上取得了很好的表现。