Oct, 2022

VLC-BERT:上下文化通识知识视觉问答

TL;DR本研究提出了 VLC-BERT 模型,该模型针对需要常识推理的视觉问答任务,通过使用预训练的 Commonsense Transformer(COMET)模型产生、选择和编码外部常识知识,结合视觉和文本线索,超越了使用静态知识库的现有模型.