May, 2023

DiffCap:探索连续扩散在图像字幕生成中的应用

TL;DR本文提出了一种基于连续扩散的新方法 ——DiffCap,用于图像标题生成中的多模态特征融合。相比于自回归式的方法,DiffCap 采用了非自回归式方法,可在生成时提供更高的多样性与灵活性。实验结果表明,我们的方法在保证生成品质的同时,使用了更加简单的结构,这一设计将会启发更多关于多模态生成任务方面的研究。