面向开放领域问答的口头 vs 视觉解释的人类评估
本文提出了一种新颖的方法,开发了一个高性能的 VQA 系统,能够通过集成的文本和视觉解释阐述其答案,并捕捉到深度神经网络推理的重要方面,从而比竞争方法具有更好的自动化和人类评估指标。
Sep, 2018
提出了 VQA-E 任务,要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架, VQA-E 数据集从 VQA v2 数据集自动导出,用户研究表明,我们的方法可以生成有洞察力的文本句子来证明答案,并提高了答案预测的性能。
Mar, 2018
本论文中,我们提出了 WebQA,它引入了一个具有挑战性的新测量标准,该标准涉及大规模最先进模型的困难之处,缺乏新颖对象的语言基础视觉表达和推理能力,但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型,这些模型可以回答问题,而不考虑源模态,从而使我们更接近不仅查询语言知识,而且查询更丰富的视觉在线世界的数字助手。
Sep, 2021
本文提出了一种基于数据和文本的统一问答框架 UDT-QA,并使用数据到文本方法将 Wiki 百科中的表格和 Wikidata 中的图表达为口语化信息,以扩展知识索引。实验证明,该方法取得了自然问答 (Single-model state-of-the-art) 的最佳成果,并表明对于调整和热插拔的两种情况,口语化知识的优先考虑可以优化答案推理。
Oct, 2021
本试验的目的是研究在模型与人类在图像年龄预测任务中表现相似情况下,给人类提供好的模型预测解释是否会提高人类预测的准确度,而不好的解释会降低人类对模型的信任。研究发现,给人类提供模型预测能提高人类准确度,但图像解释并不能改变人类对模型的准确度或信任的显著差异。这一发现表明有必要对后续的决策任务进行更全面的解释评估,为用户提供基于设计的解释工具,并思考更好的生成解释的方法。
Jul, 2020
我们研究了当一个 AI 系统遇到一项不能完美执行的任务时,用户如何看待其限制,并且提供解释是否有助于用户构建系统能力和限制的适当心理模型。通过控制视觉输入,在视觉问答解释任务中,我们操控 AI 系统的限制:在推理过程中,该系统可以处理全彩色或灰度图像。我们的目标是确定参与者是否能够察觉到该系统的限制。我们假设解释会使有限的 AI 能力对用户更加透明。然而,我们的研究结果显示解释没有这种效果。与其实际表现无关,解释通常会增加用户对系统能力的认知。
Jun, 2024
该研究提出了一种使用人工文本解释帮助视觉问答(VQA)系统选择正确答案的新框架,通过在人类文本解释上进行训练,VQA 系统可以构建更好的问题和视觉内容的表示,并重新计算训练集中生成或检索到的解释的置信度,该方法在 VQA 和其解释上实现了新的最先进的结果。
Jun, 2020
通过对深度神经网络进行解释并将其应用于 VQA 等人类交互任务的研究已经取得了重大进展;然而,本研究发现目前的解释并不能提高模型的可预测性,而将模型视为黑盒的人类参与方法却能够提高可预测性。
Oct, 2018
通过提出 Explanation-assisted Guess Which (ExAG) 游戏作为评估 AI 生成的解释对人 - AI 协作任务产生影响的一种方法,我们发现人类在进行协作任务时,当 AI 解释其答案时,能更容易地正确猜测到秘密图像,并且有用的解释显着提高了人类的实际表现。
Apr, 2019
本文提出了一个用于自动生成解释的方法来改善基于管道的问答系统,在特定领域(如生物医学领域)中应用 QA 系统的难点在于其 “黑匣子” 性质,该方法是通过考虑三类(成功、无回答和错误回答)用于注释所涉及 QA 组件的输出,并选择一个模板解释来衡量其有效性。
Oct, 2020