迈向视觉图灵挑战

NIPSOct, 2014

Towards a Visual Turing Challenge

Mateusz Malinowski, Mario Fritz

TL;DR我们总结并讨论了针对语言和视觉的理解方面的一些挑战，其中解决方案将这两种模式紧密联系起来，以实现联合学习和推理过程。我们提供了一些解决方案，并在基于室内图像的问题回答任务上展示了一些解决方案，该任务建立了视觉图灵挑战。最后，我们辩称除了现有数据集外，我们还需要依靠 “社交共识” 来创建适当的基准。

Abstract

As language and visual understanding by machines progresses rapidly, we are observing an increasing interest in holistic architectures tha

language visual understanding holistic architectures joint learning turing test

发现论文，激发创造

Hard to Cheat: 基于图像问题回答的图灵测试

机器对语言和图像的理解正在取得进展，研究界对更为开放和整体的任务产生了浓厚兴趣，我们探讨了几个突出的挑战，主张将 “图像问答” 作为更具吸引力的一种全面任务，这是图灵测试的一个版本，对过度解释的错误更加鲁棒，并将其与其他任务如解释和描述的生成进行比较，最终我们讨论了在该领域测量进展的工具。

Jan, 2015

视觉与语言研究中的挑战与前景

本文对语言图像理解中人工智能评估的进展和局限进行了综述，并提出了解决方案。

Apr, 2019

人类还是机器？视觉和语言的图灵测试

通过图灵测试进行了人工智能算法和人类的对比实验，实验结果表明在视觉和语言挑战方面，当前的人工智能算法已能够成功模仿人类的判断。同时，该论文提出了一个评价人类模仿能力的方法，通过该方法可以进行新的理论探究与研究成果的展示。

Nov, 2022

问你神经元：基于神经网络的图像问答系统

利用图像表示和自然语言处理的最新进展，我们提出了一种端到端形式的 Neural-Image-QA 解决方案来回答真实世界图像上的问题，我们面临一个多模态问题，其中语言输出（答案）是基于视觉和自然语言输入（图像和问题）的，我们的方法可以使已有研究成果的表现效果成倍增加，并提供了关于该问题的额外见解，包括研究人类共识的两个新指标并扩展了初始数据集到 DAQUAR-Consensus。

May, 2015

基于深度语言处理的深度学习评估

本文讨论了用于视觉问答等任务的标准评估方法存在的问题，并认为人工数据可以作为当前实践的补充来解决这些问题。我们展示了利用现有的 “深度” 语言处理技术可以创建具有挑战性的抽象数据集，这些数据集使我们能够详细研究多模态深度学习模型的语言理解能力，与静态和单一数据集上的单一性能值相比。

Jun, 2017

不欺骗图灵测试：朝向人工智能的基于实证的语言学习

研究自然语言理解在人工智能领域的挑战，结合认知科学、心理学、思维哲学和认知语言学的见解，评估目前的方法和挑战。

Jun, 2022

生成模型的统计图灵测试

通过统计模式识别语言提供了一个框架，量化了针对评估上下文的人类生成内容和机器生成内容之间的差异，描述了当前的方法并演示了如何使用该框架评估生成模型在向人类能力逼近的过程中的进展。

Sep, 2023

语言与视觉助手在视觉环境下的高效自然语言理解：阅读和推理中哪些是重要的

通过识别关键组件和创建具有受限推理成本的高效模型，重新定义了视觉语言模型的设计，以实现推理吞吐量的显著提高，并保持高性能。

Jun, 2024

现代视觉问答架构的快速进步：回顾

本文总结了近年来在改善视觉问题回答系统架构方面的研究进展，指出视觉问题回答对于人工智能的重要性及多模态架构的好处。

Mar, 2022

视觉与语言研究整合趋势：任务、数据集和方法调查

本次调查聚焦于十项著名任务，介绍其问题形式、方法、现有数据集、评估措施，并与相应的最新方法进行比较。我们的工作超越早期的调查，既非任务特定的，也不仅针对一种类型的视觉内容，即图像或视频。此外，我们还提供了该研究领域的一些潜在未来方向，期望此次调查能激发革新性的思路和想法，以解决现有挑战并构建新的应用。

Jul, 2019