机器对语言和图像的理解正在取得进展,研究界对更为开放和整体的任务产生了浓厚兴趣,我们探讨了几个突出的挑战,主张将 “图像问答” 作为更具吸引力的一种全面任务,这是图灵测试的一个版本,对过度解释的错误更加鲁棒,并将其与其他任务如解释和描述的生成进行比较,最终我们讨论了在该领域测量进展的工具。
Jan, 2015
本文对语言图像理解中人工智能评估的进展和局限进行了综述,并提出了解决方案。
Apr, 2019
通过图灵测试进行了人工智能算法和人类的对比实验,实验结果表明在视觉和语言挑战方面,当前的人工智能算法已能够成功模仿人类的判断。同时,该论文提出了一个评价人类模仿能力的方法,通过该方法可以进行新的理论探究与研究成果的展示。
Nov, 2022
利用图像表示和自然语言处理的最新进展,我们提出了一种端到端形式的 Neural-Image-QA 解决方案来回答真实世界图像上的问题,我们面临一个多模态问题,其中语言输出(答案)是基于视觉和自然语言输入(图像和问题)的,我们的方法可以使已有研究成果的表现效果成倍增加,并提供了关于该问题的额外见解,包括研究人类共识的两个新指标并扩展了初始数据集到 DAQUAR-Consensus。
May, 2015
本文讨论了用于视觉问答等任务的标准评估方法存在的问题,并认为人工数据可以作为当前实践的补充来解决这些问题。我们展示了利用现有的 “深度” 语言处理技术可以创建具有挑战性的抽象数据集,这些数据集使我们能够详细研究多模态深度学习模型的语言理解能力,与静态和单一数据集上的单一性能值相比。
Jun, 2017
研究自然语言理解在人工智能领域的挑战,结合认知科学、 心理学、思维哲学和认知语言学的见解,评估目前的方法和挑战。
Jun, 2022
通过统计模式识别语言提供了一个框架,量化了针对评估上下文的人类生成内容和机器生成内容之间的差异,描述了当前的方法并演示了如何使用该框架评估生成模型在向人类能力逼近的过程中的进展。
Sep, 2023
通过识别关键组件和创建具有受限推理成本的高效模型,重新定义了视觉语言模型的设计,以实现推理吞吐量的显著提高,并保持高性能。
Jun, 2024
本文总结了近年来在改善视觉问题回答系统架构方面的研究进展,指出视觉问题回答对于人工智能的重要性及多模态架构的好处。
Mar, 2022
本次调查聚焦于十项著名任务,介绍其问题形式、方法、现有数据集、评估措施,并与相应的最新方法进行比较。我们的工作超越早期的调查,既非任务特定的,也不仅针对一种类型的视觉内容,即图像或视频。此外,我们还提供了该研究领域的一些潜在未来方向,期望此次调查能激发革新性的思路和想法,以解决现有挑战并构建新的应用。
Jul, 2019