视觉与语言研究中的挑战与前景
本次调查聚焦于十项著名任务,介绍其问题形式、方法、现有数据集、评估措施,并与相应的最新方法进行比较。我们的工作超越早期的调查,既非任务特定的,也不仅针对一种类型的视觉内容,即图像或视频。此外,我们还提供了该研究领域的一些潜在未来方向,期望此次调查能激发革新性的思路和想法,以解决现有挑战并构建新的应用。
Jul, 2019
本论文提出了一个自然语言视觉推理的任务,通过图片和描述语句的配对,预测描述语句在给定场景中的真假。该任务涉及自然语言、机器人代理、语言输入、视觉推理以及合成图像等方面。
Oct, 2017
本文综述了 Vision-and-Language Navigation(VLN)这一领域的现有研究,包括任务、评价指标、方法等,并通过结构化分析当前进展和挑战,强调了当前 VLN 的局限性和未来工作的机遇,是 VLN 研究社区的详尽参考。
Mar, 2022
语言对理解视觉世界有何帮助?实际观察世界还是通过文字描述更重要?通过分析具有语言和视觉能力的人工智能模型,研究人员发现语言提供了先前的知识和推理能力,有助于从有限数据中学习新任务。
Feb, 2024
基于 AI 在自然语言理解和生成方面的革命性进展,我们设计了能够解决复杂科学任务的 AI 系统,并将自然语言作为 AI 与人类科学家之间的核心表示、推理和交换格式。本文旨在探讨实现这一愿景所面临的主要研究挑战。
Oct, 2022
我们总结并讨论了针对语言和视觉的理解方面的一些挑战,其中解决方案将这两种模式紧密联系起来,以实现联合学习和推理过程。我们提供了一些解决方案,并在基于室内图像的问题回答任务上展示了一些解决方案,该任务建立了视觉图灵挑战。最后,我们辩称除了现有数据集外,我们还需要依靠 “社交共识” 来创建适当的基准。
Oct, 2014
这篇论文从时间的角度对视觉语言智能进行了全面的调研,总结了三个时期的发展,包括特定任务方法,视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型,并讨论了未来的发展趋势.
Mar, 2022
本文综述了视频 - 语言理解系统的关键任务、相关挑战以及模型架构、模型训练和数据观点等方面的方法,并进行了方法间的性能比较,提出了未来研究的有前景的方向。
Jun, 2024
通过识别关键组件和创建具有受限推理成本的高效模型,重新定义了视觉语言模型的设计,以实现推理吞吐量的显著提高,并保持高性能。
Jun, 2024