视觉与语言研究中当前数据集的调查
本次调查聚焦于十项著名任务,介绍其问题形式、方法、现有数据集、评估措施,并与相应的最新方法进行比较。我们的工作超越早期的调查,既非任务特定的,也不仅针对一种类型的视觉内容,即图像或视频。此外,我们还提供了该研究领域的一些潜在未来方向,期望此次调查能激发革新性的思路和想法,以解决现有挑战并构建新的应用。
Jul, 2019
针对自然语言与视觉任务融合的多个数据集和方法的持续爆炸性增长的问题研究,本篇综述将现有的行动识别方法按照它们如何概念化这个问题进行分类,并详细评述现有的数据集及其多样性、优缺点。 重点关注最近开发的数据集,它们将视觉信息与语言资源联系起来,并对图像中的动作进行细粒度的语法和语义分析。
Apr, 2017
本篇文章通过开发一个大规模、多任务训练体系,研究了不同任务之间的相互关系,提出了一个单一模型,可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下,同时取得以往 3 亿多参数内单一任务模型的总和,且性能提高了 2.05 个百分点,并进一步表明,从单一多任务模型微调任务特定模型会进一步提高性能。
Dec, 2019
我们通过模板构建了四种语言的多语言视觉文本数据集,介绍了九项视觉语言任务,并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。
Mar, 2024
语言对理解视觉世界有何帮助?实际观察世界还是通过文字描述更重要?通过分析具有语言和视觉能力的人工智能模型,研究人员发现语言提供了先前的知识和推理能力,有助于从有限数据中学习新任务。
Feb, 2024
这篇论文从时间的角度对视觉语言智能进行了全面的调研,总结了三个时期的发展,包括特定任务方法,视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型,并讨论了未来的发展趋势.
Mar, 2022
新方法和基础性性能的比较与现有机器学习方法中挑战的问题进行了讨论,最终提出了 Visuo-Linguistic Question Answering 作为计算机视觉和自然语言处理的基准测试集。
May, 2020