基于图片 - 问题 - 答案协同的视觉对话网络
展示了一个简单对称的辨别性基线,该基线可用于预测答案和问题,其性能与最先进的记忆网络方法相当。此外,首次在视觉对话数据集上评估了提问系统的性能,并展示了如何从辨别式问题生成和问题回答生成视觉对话。
Mar, 2018
本文介绍了视觉对话任务,即通过图像、对话历史和问题,要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话,并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上,利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器(生成式和判别式),超越了许多复杂的基准线,并采用了基于检索的评估协议,Quantify 了机器和人类在视觉对话任务上的性能差距,进而演示了第一款 “视觉聊天机器人”。
Nov, 2016
提出了 Invertible Question Answering Network (iQAN) 框架,该框架通过对 VQA 和 VQG 任务同时训练,利用图像中的问题和答案之间的互补关系,使用对应的参数共享方案和正则项来明确 Q,A 之间的依赖关系,并且明确地指导训练过程。通过在 CLEVR 和 VQA2 数据集上的评估,我们的 iQAN 在基线上提高了 VQA 的准确性,并表明 iQAN 的双学习框架可以推广到其他 VQA 体系结构,并持续改进结果。
Sep, 2017
该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像,没有历史对话背景的信息,因此先前的联合模式变得依赖和容易陷入对话历史的记忆中,相比之下,仅使用图像的模型更具有普适性,并且在 NDCG 指标上表现更好。因此,作者提出了一种结合两种模型的方法,并在视觉对话挑战赛中取得优异的成绩。
Jan, 2020
该研究提出了一种新的模型来从视觉和语义两个角度描述图像,在多角度图像特征的基础上提出了特征选择框架,逐层适应性地捕捉问题相关信息,并在基准视觉对话数据集上取得了最先进的结果。更重要的是,通过可视化门控值,我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用,为我们理解人类认知在视觉对话中的作用提供了见解。
Nov, 2019
该研究提出使用范例获取相关语境,利用多模式差分网络生成自然而富有吸引力的问题,此方法在定量指标(BLEU,METEOR,ROUGE 和 CIDEr)方面取得了显著的改进,生成的问题与自然问题的相似性经过人类研究验证。
Aug, 2018
本论文提出一种基于视觉问答的方法来查询深度学习模型的行为,通过在多个医学和自然图像数据集上进行实验,证明该方法较目前方法具有相同或更高的准确度,有效地解决了深度学习方法缺乏透明性的问题。
Mar, 2020
论文旨在通过提出 Multi-View Attention Network (MVAN) 模型来解决视觉对话任务中的挑战性问题,该模型基于注意机制,利用多个视角来处理异构输入,并且通过序列对齐过程构建多模态表示,从而可以更好地捕捉到对话历史中与问题相关的信息,并在 VisDial v1.0 数据集上达到了最佳结果。
Apr, 2020
本文提出了一种基于视觉蕴含的选择性 - 重新排名(SAR)渐进式框架解决 VQA 模型的表面相关性问题,通过选取与图像或问题相关的候选答案,并使用视觉蕴含验证每个答案是否可信,实现了对候选答案的有效排序,从而在 VQA-CP v2 数据集上取得了 7.55%的准确率提高,达到了新的最高水平。
Jun, 2021