May, 2023

FACTUAL:忠实且一致的文本场景图解析基准

TL;DR本文介绍了一种新的中间表示方法 FACTUAL-MR ,并使用该方法重新对 Visual Genome (VG) 中的字幕进行了注释,从而使结果更加真实且一致。研究者设计了一种新的场景图相似度度量方法,与改进后的场景图解析器结合使用,在图像字幕评估和零-shot图像检索任务中实现了最先进的结果。