EMNLPOct, 2020

从像素到语义框架到常识图谱的全栈视觉推理自然语言理由

TL;DR本文介绍了首个以生成自然语言解释为中心的研究,该研究关注复杂的视觉推理任务,包括视觉常识推理、视觉文本蕴含和视觉问答。文章提出了 Rationale^VT Transformer,该模型通过结合预训练的语言模型、对象识别、基于视觉的语义框架和视觉常识图生成自由文本解释,实现了全面的图像理解,并且实验证明,自然语言解释是用于复杂视觉 - 文本推理任务的一种具有前景的研究方向。