Jan, 2022
千言万语胜于一幅图:自然语言为中心的外部知识视觉问答
A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering
Feng Gao, Qing Ping, Govind Thattai, Aishwarya Reganti, Ying Nian Wu...
TL;DR该论文提出了一种利用海量知识库和预训练语言模型的模型,通过将图像转换为纯文本,以进行知识检索和自然语言生成问答,其中使用的框架为 TRiG 框架,并取得了比所有最先进的监督方法多至少 11.1%的绝对优势。