视觉和语言数据集创建的注释方法学

CVPRJul, 2016

视觉和语言数据集创建的注释方法学

Annotation Methodologies for Vision and Language Dataset Creation

Gitit Kehat, James Pustejovsky

TL;DR探讨了在创造和验证视觉和语言注释数据集时所面临的困难和问题，指出现有数据集反映了数据选择和注释过程中出现的问题。

Abstract

annotated datasets are commonly used in the training and evaluation of tasks involving natural language and vision (image description gene

annotated datasets natural language vision data selection annotation

发现论文，激发创造

语言和视觉任务中的动作识别数据集分析

针对自然语言与视觉任务融合的多个数据集和方法的持续爆炸性增长的问题研究，本篇综述将现有的行动识别方法按照它们如何概念化这个问题进行分类，并详细评述现有的数据集及其多样性、优缺点。重点关注最近开发的数据集，它们将视觉信息与语言资源联系起来，并对图像中的动作进行细粒度的语法和语义分析。

Apr, 2017

视觉与语言研究中当前数据集的调查

本文提出一组质量指标，对视觉和语言数据集进行评估和分析并将其分类，结果显示最近的数据集在语言和抽象概念上更加复杂，然而它们各有优劣之处。

Jun, 2015

模拟标注员思维：数据集标注指令生成

我们引入了一个新的任务，标签指令生成，旨在解决缺少公开可用的标注说明的问题，我们介绍了一个无需模型训练的框架，并使用一个新创建的快速检索系统，利用大型预训练视觉和语言模型，生成数据集类别的多个不同的视觉和文本表示，我们优化后的标注指令集在 5 个折叠中比 NuImages 高出 7.06 mAP，比 COCO 高出 12.9 mAP。

Jun, 2023

注释错误检测：分析过去和现在，创造更连贯的未来

本文重新实现并评估了 18 种检测可能存在的注释错误的方法，并在 9 个英文数据集上进行了评估，同时提供了评估协议和实现的开源软件包，以促进未来的研究和再现性。

Jun, 2022

基于通用语言模型的非英语医学自然语言处理注释数据集构建

介绍了如何利用预训练语言模型提升非英语医学文本处理的 NLP 任务效率和数据集命中率，并且用我们的方法在德语文本上训练了一个医学 NER 模型 GPTNERMED。

Aug, 2022

基于语义的高质量图像注释方法论

利用 vTelos 方法结合自然语言处理、知识表示和计算机视觉技术，通过利用 WordNet 词汇 - 语义层次结构来明确图像注释的含义，从而减少主观选择，实现了显式的注释语义。

Jul, 2023

视觉与语言研究整合趋势：任务、数据集和方法调查

本次调查聚焦于十项著名任务，介绍其问题形式、方法、现有数据集、评估措施，并与相应的最新方法进行比较。我们的工作超越早期的调查，既非任务特定的，也不仅针对一种类型的视觉内容，即图像或视频。此外，我们还提供了该研究领域的一些潜在未来方向，期望此次调查能激发革新性的思路和想法，以解决现有挑战并构建新的应用。

Jul, 2019

野外数据集标注质量管理分析

文章调研了自然语言数据集创作的质量管理实践，分析了 591 个科学出版物并发现了其普遍存在的错误和 30% 的工作只达到了次级水平，尤其在使用标注错误率和计算注释错误率方面存在常见错误。

Jul, 2023

视觉与语言研究中的挑战与前景

本文对语言图像理解中人工智能评估的进展和局限进行了综述，并提出了解决方案。

Apr, 2019

连接视觉和语言的局部叙述

我们提出了一种新的多模态图像标注方法，称为定位叙述，将视觉和语言进行连接。通过请求标注者在将鼠标指针悬停在要描述的区域的同时用语音来描述图像，我们实现了对每个单词进行定位。该方法经过全面的分析和外部数据验证，具有高度准确性和生产效率，并且在受控图像字幕应用程序中具有实用性。

Dec, 2019