Jan, 2018

基于POS标记引导注意力的结构三元组学习用于视觉问答

TL;DR本文探索在VQA多项选择任务中设计有效的VQA模型的良好实践,并通过结构学习、POS标签引导的注意力机制等手段构建视觉问答模型,评估结果在视觉7W和VQA多选数据集上取得了最好的68.2%和最竞争的69.6%的准确率。