Oct, 2022
VLC-BERT:上下文化通识知识视觉问答
VLC-BERT: Visual Question Answering with Contextualized Commonsense Knowledge
Sahithya Ravi, Aditya Chinchure, Leonid Sigal, Renjie Liao, Vered Shwartz
TL;DR本研究提出了 VLC-BERT 模型,该模型针对需要常识推理的视觉问答任务,通过使用预训练的 Commonsense Transformer(COMET)模型产生、选择和编码外部常识知识,结合视觉和文本线索,超越了使用静态知识库的现有模型.