基于语义的高质量图像注释方法论

Jul, 2023

基于语义的高质量图像注释方法论

A semantics-driven methodology for high-quality image annotation

Fausto Giunchiglia, Mayukh Bagchi, Xiaolei Diao

TL;DR利用 vTelos 方法结合自然语言处理、知识表示和计算机视觉技术，通过利用 WordNet 词汇 - 语义层次结构来明确图像注释的含义，从而减少主观选择，实现了显式的注释语义。

Abstract

Recent work in machine learning and computer vision has highlighted the presence of various types of systematic flaws inside ground truth

machine learning computer vision systematic flaws ground truth object recognition benchmark datasets vtelos

发现论文，激发创造

基于形式本体论的词元分类及其应用

本文介绍了为印度语言量身定制的动词中心词汇资源 OntoSenseNet 的丰富，其重要贡献之一是通过开发一个计算版本来保留 Telugu 词典的原汁原味。手动注释的黄金标准语料库共包含 8483 个动词、253 个副词和 1673 个形容词，并由本地语言人士根据定义的注释指南进行注释。本文提供了注释过程的概述，并通过互注器协议的验证，验证了所开发资源的有效性。

Jul, 2018

视觉现实构建与分面分类

本文主要探讨机器学习和计算机视觉领域中的目标识别问题，认为其根源在于缺乏知识表示方法，因此提出了一种基于图像属性的分类方法，并在 ImageNet 数据集上进行了验证。

Feb, 2022

通过语义基础解决视觉语言任务中目标提议评估的不匹配

评估目标提议的有效性，通过仅针对由阈值筛选的注释子集进行评估，使用语义基础实现与图像字幕和人工注释的对齐，并比较当前在场景图生成基准中使用的检测器的性能对比。

Sep, 2023

通过保留视觉主要语义实现图像文本检索

本文提出了一种语义优化方法，称为视觉语义损失（VSL），以辅助模型专注于图像的主要内容，通过对图像的注释文本的利用，减少次要内容的负面影响，通过两个基准数据集（MSCOCO 和 Flickr30K）的大量实验，证明了该方法的卓越性能。

Apr, 2023

通过迭代优化实现递增式图像标记

提出了一种基于知识表示（KR）的方法来指导数据标注的过程，并通过迭代优化技术，将对象组织在分类层次结构中，以保证它们与它们的语言描述保持一致，从而间接地引入了 ML 模型的预期语义。初步结果验证了所提出方法的有效性。

Apr, 2023

视觉和语言数据集创建的注释方法学

探讨了在创造和验证视觉和语言注释数据集时所面临的困难和问题，指出现有数据集反映了数据选择和注释过程中出现的问题。

Jul, 2016

图像语义和语法序列学习导向

通过引入 “图像语法” 的概念，结合卷积神经网络和视觉变换器，我们提出了一个两阶段的弱监督学习方法，利用深度聚类和特征细化生成部分 - 语义分割，并结合双向长短时记忆模块处理语义分割补丁序列以捕捉图像语法，实现了对图像补丁损坏的准确检测，在多种语义和句法损坏场景中，验证了我们的框架在 Celeb 和 SUNRGBD 数据集上能够实现 70% 到 90% 的语法验证准确度。

Jan, 2024

自我中心的分层视觉语义

本文提出了一种算法，通过递归识别物体的视觉属于和视觉特征来实现物体识别，从而实现了基于词义层次结构的物体识别，进一步推动了人机交互的研究。

May, 2023

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018

简单语义辅助的少样本学习

利用少量数据进行学习是一项具有挑战性的计算机视觉任务，本文通过引入高质量的语义以及使用简单的网络结构，设计了一个名为 “语义进化” 的自动化方式来解决少样本学习中的问题，实验证明该方法在少样本分类任务中表现优异。

Nov, 2023