针对自然语言与视觉任务融合的多个数据集和方法的持续爆炸性增长的问题研究,本篇综述将现有的行动识别方法按照它们如何概念化这个问题进行分类,并详细评述现有的数据集及其多样性、优缺点。 重点关注最近开发的数据集,它们将视觉信息与语言资源联系起来,并对图像中的动作进行细粒度的语法和语义分析。
Apr, 2017
本文提出一组质量指标,对视觉和语言数据集进行评估和分析并将其分类,结果显示最近的数据集在语言和抽象概念上更加复杂,然而它们各有优劣之处。
Jun, 2015
我们引入了一个新的任务,标签指令生成,旨在解决缺少公开可用的标注说明的问题,我们介绍了一个无需模型训练的框架,并使用一个新创建的快速检索系统,利用大型预训练视觉和语言模型,生成数据集类别的多个不同的视觉和文本表示,我们优化后的标注指令集在 5 个折叠中比 NuImages 高出 7.06 mAP,比 COCO 高出 12.9 mAP。
Jun, 2023
本文重新实现并评估了 18 种检测可能存在的注释错误的方法,并在 9 个英文数据集上进行了评估,同时提供了评估协议和实现的开源软件包,以促进未来的研究和再现性。
Jun, 2022
介绍了如何利用预训练语言模型提升非英语医学文本处理的 NLP 任务效率和数据集命中率,并且用我们的方法在德语文本上训练了一个医学 NER 模型 GPTNERMED。
Aug, 2022
利用 vTelos 方法结合自然语言处理、知识表示和计算机视觉技术,通过利用 WordNet 词汇 - 语义层次结构来明确图像注释的含义,从而减少主观选择,实现了显式的注释语义。
Jul, 2023
本次调查聚焦于十项著名任务,介绍其问题形式、方法、现有数据集、评估措施,并与相应的最新方法进行比较。我们的工作超越早期的调查,既非任务特定的,也不仅针对一种类型的视觉内容,即图像或视频。此外,我们还提供了该研究领域的一些潜在未来方向,期望此次调查能激发革新性的思路和想法,以解决现有挑战并构建新的应用。
Jul, 2019
文章调研了自然语言数据集创作的质量管理实践,分析了 591 个科学出版物并发现了其普遍存在的错误和 30% 的工作只达到了次级水平,尤其在使用标注错误率和计算注释错误率方面存在常见错误。
本文对语言图像理解中人工智能评估的进展和局限进行了综述,并提出了解决方案。
Apr, 2019
我们提出了一种新的多模态图像标注方法,称为定位叙述,将视觉和语言进行连接。通过请求标注者在将鼠标指针悬停在要描述的区域的同时用语音来描述图像,我们实现了对每个单词进行定位。该方法经过全面的分析和外部数据验证,具有高度准确性和生产效率,并且在受控图像字幕应用程序中具有实用性。
Dec, 2019