AAAIDec, 2023

通过合成对的方法改善文本式图像描述的跨模态对齐

TL;DR本研究提出了一种新方法,通过结合合成的图像文本对来解决图像标注中存在的跨模态对齐问题。通过使用预训练的文本到图像模型生成图像,并优化合成图像在 CLIP 嵌入空间中的伪特征以接近真实图像特征,同时利用图像中的显著对象来增强模态对齐的学习。实验证明,该方法在基准数据集上取得了最先进的性能。