Sep, 2022

用于字到句的视觉语义相似度在标题生成的应用:得到的经验教训

TL;DR本文提出一种改进图像 - 字幕生成系统的方法,通过从视觉上下文的角度修订语言生成输出的 beam search,采取视觉语义量化概念,在单词和句子级别上匹配与图像相关的信息来选择最相关的输出作为字幕。该方法可作为后处理方法应用于任何字幕系统中。