具有深度学习和自然语言能力的辅助图像标注系统：一项综述

Jun, 2024

具有深度学习和自然语言能力的辅助图像标注系统：一项综述

Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review

Moseli Mots'oehli

TL;DR本研究论文探讨了在计算机视觉任务中，超分辨率学习取得了显著的成功，但获取高质量的标注数据仍然是一个瓶颈。作者调查了 AI 辅助深度学习图像标注系统的学术和非学术作品，这些系统为注释者提供关于输入图像的文本建议、标题或描述，从而提高注释效率和质量。研究涵盖了各种计算机视觉任务的标注，包括图像分类、目标检测、回归、实例、语义分割和姿态估计。作者回顾了各种数据集以及它们对 AI 辅助标注系统的训练和评估的贡献。此外，作者还研究了利用神经符号学习、深度主动学习和自监督学习算法实现语义图像理解和生成自由文本输出的方法，包括图像字幕生成、视觉问答和多模态推理。尽管前景看好，但 AI 辅助图像标注与文本输出能力的公开可用作品有限。文章最后提出了未来研究方向的建议，强调了更多公开可用的数据集和学术界与工业界合作的必要性。

Abstract

While supervised learning has achieved significant success in computer vision tasks, acquiring high-quality annotated data remains a bottleneck. This paper explores both scholarly and non-scholarly works in AI-as

supervised learning computer vision ai-assistive annotation neuro-symbolic learning textual output capabilities

发现论文，激发创造

新闻报道：通过图像和文本处理进行文章注释

本文提出了一种新颖的深度学习方法，适用于解决文字描述与图片内容松散相关的情况。这种方法在多任务和迁移学习中表现良好，可以有效地检测图片来源、预测热度、插图以及文章地理位置等问题。同时，研究人员构建了一个新的语料库以供研究者使用。研究表明，该方法在新闻文章的领域中具有很强的实用性。

Mar, 2016

使用深度神经网络架构进行图像字幕生成

该文讨论了图像字幕生成的各种模型，描述了对象识别和机器翻译的进展以及如何实现该模型，最后使用标准评估矩阵评估了该模型的性能。

Jan, 2018

计算机视觉应用图像标注调查

本研究对图像标注软件进行了系统性的文献综述和分类，提出了组织结构、用户界面设计选项和用户支持技术的体系化方案，并应用于现有软件和文献领域，揭示了多个应用原型和关键领域，如医疗保健或电视中的图像检索或实例识别。

Apr, 2021

高效图像探索与用户引导图像标题生成的视觉分析

运用预训练的大规模语言 - 图像模型，本文尝试解决可视化分析中的两个问题：大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题，我们能深入了解视觉内容的语义基础，并发现数据偏差。同时，通过展示视觉内容与文本标题之间的关联，揭示了预训练的语言 - 图像模型在标题生成能力上的不足，并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。

Nov, 2023

图像字幕的深度学习综述

该研究综述了基于深度学习的图像描述技术，包括目标识别、句子生成及评估度量等方面进行了探讨。

Oct, 2018

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

针对英文手写体草书和印刷体的端到端交互式深度学习标注系统

本文介绍了一种创新的、完整的端到端流程，采用深度学习和用户交互技术，对印刷和草书英文手写手稿进行注释，该方法使用了最先进的文本识别模型构建的检测系统和自定义的深度学习模型，结合易于使用的交互式界面，旨在提高检测、分割、序列化和识别阶段的准确性，以确保高质量的注释数据，最大程度地减少人类交互。

Apr, 2023

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018