视觉与语言研究中的挑战与前景

Apr, 2019

Challenges and Prospects in Vision and Language Research

Kushal Kafle, Robik Shrestha, Christopher Kanan

TL;DR本文对语言图像理解中人工智能评估的进展和局限进行了综述，并提出了解决方案。

Abstract

language grounded image understanding tasks have often been proposed as a method for evaluating progress in artificial intelligence. Ideally, these tasks should test a plethora of capabilities that integrate

language grounded image understanding artificial intelligence computer vision natural language understanding evaluation procedures

发现论文，激发创造

视觉与语言研究整合趋势：任务、数据集和方法调查

本次调查聚焦于十项著名任务，介绍其问题形式、方法、现有数据集、评估措施，并与相应的最新方法进行比较。我们的工作超越早期的调查，既非任务特定的，也不仅针对一种类型的视觉内容，即图像或视频。此外，我们还提供了该研究领域的一些潜在未来方向，期望此次调查能激发革新性的思路和想法，以解决现有挑战并构建新的应用。

Jul, 2019

视觉与语言研究中当前数据集的调查

本文提出一组质量指标，对视觉和语言数据集进行评估和分析并将其分类，结果显示最近的数据集在语言和抽象概念上更加复杂，然而它们各有优劣之处。

Jun, 2015

自然语言视觉推理

本论文提出了一个自然语言视觉推理的任务，通过图片和描述语句的配对，预测描述语句在给定场景中的真假。该任务涉及自然语言、机器人代理、语言输入、视觉推理以及合成图像等方面。

Oct, 2017

视觉与语言导航：任务、方法和未来发展综述

本文综述了 Vision-and-Language Navigation（VLN）这一领域的现有研究，包括任务、评价指标、方法等，并通过结构化分析当前进展和挑战，强调了当前 VLN 的局限性和未来工作的机遇，是 VLN 研究社区的详尽参考。

Mar, 2022

分析有限数据中语言与视觉在学习中的作用

语言对理解视觉世界有何帮助？实际观察世界还是通过文字描述更重要？通过分析具有语言和视觉能力的人工智能模型，研究人员发现语言提供了先前的知识和推理能力，有助于从有限数据中学习新任务。

Feb, 2024

面向语言驱动的科学人工智能

基于 AI 在自然语言理解和生成方面的革命性进展，我们设计了能够解决复杂科学任务的 AI 系统，并将自然语言作为 AI 与人类科学家之间的核心表示、推理和交换格式。本文旨在探讨实现这一愿景所面临的主要研究挑战。

Oct, 2022

迈向视觉图灵挑战

我们总结并讨论了针对语言和视觉的理解方面的一些挑战，其中解决方案将这两种模式紧密联系起来，以实现联合学习和推理过程。我们提供了一些解决方案，并在基于室内图像的问题回答任务上展示了一些解决方案，该任务建立了视觉图灵挑战。最后，我们辩称除了现有数据集外，我们还需要依靠 “社交共识” 来创建适当的基准。

Oct, 2014

视觉 - 语言智能：任务、表示学习与大模型

这篇论文从时间的角度对视觉语言智能进行了全面的调研，总结了三个时期的发展，包括特定任务方法，视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型，并讨论了未来的发展趋势.

Mar, 2022

视频语言理解：模型架构、模型训练和数据视角的综述

本文综述了视频 - 语言理解系统的关键任务、相关挑战以及模型架构、模型训练和数据观点等方面的方法，并进行了方法间的性能比较，提出了未来研究的有前景的方向。

Jun, 2024

语言与视觉助手在视觉环境下的高效自然语言理解：阅读和推理中哪些是重要的

通过识别关键组件和创建具有受限推理成本的高效模型，重新定义了视觉语言模型的设计，以实现推理吞吐量的显著提高，并保持高性能。

Jun, 2024