视觉问答的强健性解释
提出了 VQA-E 任务,要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架, VQA-E 数据集从 VQA v2 数据集自动导出,用户研究表明,我们的方法可以生成有洞察力的文本句子来证明答案,并提高了答案预测的性能。
Mar, 2018
该研究提出了一种使用人工文本解释帮助视觉问答(VQA)系统选择正确答案的新框架,通过在人类文本解释上进行训练,VQA 系统可以构建更好的问题和视觉内容的表示,并重新计算训练集中生成或检索到的解释的置信度,该方法在 VQA 和其解释上实现了新的最先进的结果。
Jun, 2020
本研究提出将端到端的 VQA 分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门 VQA 数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。
Jan, 2018
该研究提出了自我批判的训练目标,通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域,确保正确答案的视觉解释与竞争答案候选者相比更匹配,以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集,使用文本解释获得 49.5%,使用自动注释区域获得 48.5%,在 VQA 泛化任务中达到了最新的技术水平。
May, 2019
本文提出了一种利用 LASSO 优化和 Basic Question Dataset (BQD) 以及新的 robustness measure Rscore 来分析 VQA models 鲁棒性的方法,同时希望 BQD 可以成为评估 VQA models 鲁棒性的基准。
Sep, 2017
本文提出了一种新颖的方法,开发了一个高性能的 VQA 系统,能够通过集成的文本和视觉解释阐述其答案,并捕捉到深度神经网络推理的重要方面,从而比竞争方法具有更好的自动化和人类评估指标。
Sep, 2018
提出了一种基于多任务学习的统一模型(UMAE)来解决现有的视觉问答系统中存在的回答和解释分离的问题,其方法涉及在训练数据集中添加人工提示令牌,并在各种 VQA 相关任务上进行细调,实验证明该模型在准确性、解释性和领域外表现等方面均得到了明显的提高。
Jan, 2023
该文介绍了一种新的方法来提高视觉问题回答的性能,该方法利用深度学习的技术,结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述,并利用在线梯度方法自动确定与问题相关的描述来训练模型,实验结果表明,本方法取得了视觉问题回答领域的最新成果。
Jun, 2019
提出了一种视觉和文本问题回答(VTQA)模型,该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题,并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练,显著提高了现有模型的性能。
Jun, 2019