视觉与语言研究中当前数据集的调查

EMNLPJun, 2015

视觉与语言研究中当前数据集的调查

A Survey of Current Datasets for Vision and Language Research

Francis Ferraro, Nasrin Mostafazadeh, Ting-Hao, Huang, Lucy Vanderwende...

TL;DR本文提出一组质量指标，对视觉和语言数据集进行评估和分析并将其分类，结果显示最近的数据集在语言和抽象概念上更加复杂，然而它们各有优劣之处。

Abstract

Integrating vision and language has long been a dream in work on artificial intelligence (AI). In the past two years, we have witnessed an explosion of work that brings together →

vision language artificial intelligence datasets quality metrics

发现论文，激发创造

视觉与语言研究整合趋势：任务、数据集和方法调查

本次调查聚焦于十项著名任务，介绍其问题形式、方法、现有数据集、评估措施，并与相应的最新方法进行比较。我们的工作超越早期的调查，既非任务特定的，也不仅针对一种类型的视觉内容，即图像或视频。此外，我们还提供了该研究领域的一些潜在未来方向，期望此次调查能激发革新性的思路和想法，以解决现有挑战并构建新的应用。

Jul, 2019

视觉与语言研究中的挑战与前景

本文对语言图像理解中人工智能评估的进展和局限进行了综述，并提出了解决方案。

Apr, 2019

语言和视觉任务中的动作识别数据集分析

针对自然语言与视觉任务融合的多个数据集和方法的持续爆炸性增长的问题研究，本篇综述将现有的行动识别方法按照它们如何概念化这个问题进行分类，并详细评述现有的数据集及其多样性、优缺点。重点关注最近开发的数据集，它们将视觉信息与语言资源联系起来，并对图像中的动作进行细粒度的语法和语义分析。

Apr, 2017

视觉和语言数据集创建的注释方法学

探讨了在创造和验证视觉和语言注释数据集时所面临的困难和问题，指出现有数据集反映了数据选择和注释过程中出现的问题。

Jul, 2016

12 合 1：多任务视觉和语言表示学习

本篇文章通过开发一个大规模、多任务训练体系，研究了不同任务之间的相互关系，提出了一个单一模型，可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下，同时取得以往 3 亿多参数内单一任务模型的总和，且性能提高了 2.05 个百分点，并进一步表明，从单一多任务模型微调任务特定模型会进一步提高性能。

Dec, 2019

视觉 + 语言应用：一项综述

本文探讨了跨越文本、视觉、音频等多模态应用领域内相关研究，包括文本生成图像、视觉语言交互等方面，同时提供最新的研究论文、数据集、应用项目及相关信息。

May, 2023

构建多语言视觉文本数据集揭示视觉语言模型的多语言能力

我们通过模板构建了四种语言的多语言视觉文本数据集，介绍了九项视觉语言任务，并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。

Mar, 2024

分析有限数据中语言与视觉在学习中的作用

语言对理解视觉世界有何帮助？实际观察世界还是通过文字描述更重要？通过分析具有语言和视觉能力的人工智能模型，研究人员发现语言提供了先前的知识和推理能力，有助于从有限数据中学习新任务。

Feb, 2024

视觉 - 语言智能：任务、表示学习与大模型

这篇论文从时间的角度对视觉语言智能进行了全面的调研，总结了三个时期的发展，包括特定任务方法，视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型，并讨论了未来的发展趋势.

Mar, 2022

视觉语言问答 (VLQA) 挑战赛

新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论，最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。

May, 2020