Mar, 2023

基于场景图的图像 - 文本检索融合网络

TL;DR本研究提出了一种基于场景图融合网络的图像 - 文本检索方法,通过内部和交叉模态融合来增强图像 / 文本特征,并采用层次化的融合注意力来将语义信息嵌入到图像 / 文本特征向量之中,进而进行图像 - 文本的检索任务。实验结果表明,本方法相比其他现有技术,在公开数据集 Flickr30K 和 MSCOCO 上取得了更好的效果。