Jan, 2023

图像字幕视觉语义关联数据集

TL;DR本论文介绍了一种文本视觉背景数据集,用于改进现代图像描述系统,通过融合与场景相关的文本信息,提高图像描述的准确性及语义关联性。