Jan, 2022

千言万语胜于一幅图:自然语言为中心的外部知识视觉问答

TL;DR该论文提出了一种利用海量知识库和预训练语言模型的模型,通过将图像转换为纯文本,以进行知识检索和自然语言生成问答,其中使用的框架为 TRiG 框架,并取得了比所有最先进的监督方法多至少 11.1%的绝对优势。