Microsoft COCO：上下文中的通用物体

May, 2014

Microsoft COCO：上下文中的通用物体

Microsoft COCO: Common Objects in Context

Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick...

TL;DR本研究旨在推进目标识别的最新进展，提出了一种数据集的形式，通过将目标识别的问题置于场景理解的更广泛背景下，聚集了包含常见物品的复杂日常场景的图像，并利用每个实例分割对物品进行标记以协助精确定位，该数据集包含 91 种 4 岁儿童容易识别的对象类型，有 328k 张图像和 250 万个标记实例。本文最终提供了一种基于可变形零件模型的边界框和分割检测结果的基线性能分析。

Abstract

We present a new dataset with the goal of advancing the state-of-the-art in object recognition by placing the question of object recognition

object recognition scene understanding dataset instance segmentation performance analysis

发现论文，激发创造

常见三维物体：大规模学习和评估真实场景下的 3D 类别重建

该研究提供了一种名为 CO3D 的大规模数据集，其中包含了 50 种 MS-COCO 类别的近 19,000 个视频，共计 1.5 百万帧真实的多视角图像，带有相机姿态和地面真实 3D 点云的注释，并利用该数据集进行了新视角综合和类别为中心的 3D 重建方法的大规模 “野外” 评估，并提出了一种基于 Transformer 的新型神经渲染方法 NerFormer，可根据物体的少数视角重建整个物体。

Sep, 2021

深度目标共分割

本文提出了一种基于深度学习的对象共分割方法，使用 CNN-based Siamese 编码器 - 解码器体系结构，利用相互关联的特征提取和掩码生成技术来较好地完成同类别对象的提取，实验结果表明，与其他算法相比，该方法具有更好的共分割效果。

Apr, 2018

COCO-Text: 自然图像文本检测和识别数据集与基准

本文介绍了 COCO-Text 数据集，该数据集基于 MS COCO 数据集，旨在推进自然图像的文本检测和识别。数据集中包含超过 173,000 个文本注释和超过 63,000 张图像，文本注释覆盖了文本的边界框、机器印刷文本和手写文本的分类、易读和难读文本的分类、文本的字体和可读文本的转录。本文还提供了数据集注释的准确性统计分析，并对三种最先进的光学字符识别方法在数据集上的表现进行了分析，结果表明文本检测和识别存在显著的不足，需要进一步研究。

Jan, 2016

广泛应用领域物体检测的最新模型

该研究提供了一份数据集和最佳模型清单，比较分析了 5 个顶级数据集在各类深度学习模型上的性能，进一步探讨物体检测领域中的一阶和二阶方法。通过定量和定性分析，提供了性能最佳的模型和数据集组合。

Nov, 2022

基于图像级监督的目标计数与实例分割

本文提出了一种基于图像级别监督学习实现常见物体计数的方法，该方法可以同时提供全局物体计数和物体实例的空间分布，并通过构建对象类别密度映射来实现。作者的方法在 PASCAL VOC 和 COCO 数据集上进行了全面实验，表现出了优异的性能。

Mar, 2019

协作伪装对象检测：大规模数据集和基准测试

全文提供了对一项名为协作伪装目标检测（CoCOD）的新任务的全面研究，其目的是同时从一组相关图像中检测具有相同属性的伪装目标。为此，我们细致地构建了首个大规模数据集 CoCOD8K，该数据集包含 8528 张高质量且精选图像，带有目标遮罩注释，覆盖 5 个超类别和 70 个子类别。该数据集涵盖了各种自然和人工伪装场景，具有多样的目标外观和背景，因此对于 CoCOD 来说是一个非常具有挑战性的数据集。此外，我们提出了 CoCOD 的首个基准模型，名为双向分支网络（BBNet），该模型分别在单个图像内和图像组内探索和整合共伪装线索，以实现对给定图像中伪装目标的准确检测。这是通过一种图像间协作特征探索（CFE）模块、一种图像内目标特征搜索（OFS）模块和一种局部 - 全局细化（LGR）模块实现的。我们在提议的 CoCOD8K 数据集上对 18 种最先进的模型进行了性能评估，其中包括 12 种 COD 算法和 6 种 CoSOD 算法，采用了 5 种广泛使用的评估指标。广泛的实验表明了所提出方法的有效性以及与其他竞争方法相比显著更优越的性能。我们希望我们提出的数据集和模型能够促进 COD 社区的发展。该数据集、模型和结果将可在此网址获取: https://this-URL

Oct, 2023

使用 COCO 评估目标检测器：一条新的前进之路

通过检查 COCO (2017 版本) 中的成千上万个掩膜，我们发现了不同类型的错误，例如不精确的掩膜边界、未全面注释的实例和错误标记的掩膜。为了保持与先前研究的连续性，我们开发了 COCO-ReM (Refined Masks)，这是一组注释更清晰、掩膜质量明显更好的数据集。我们评估了五十个目标检测器，并发现预测视觉效果更好的掩膜的模型在 COCO-ReM 上得分更高，证实它们由于 COCO-2017 的错误而受到了不正确的惩罚。此外，我们使用 COCO-ReM 训练的模型收敛更快，得分更高，优于使用 COCO-2017 训练的更大的变体，凸显了数据质量在改进目标检测器中的重要性。基于这些发现，我们提倡在未来的目标检测研究中使用 COCO-ReM 数据集。我们的数据集可在此 https URL 获取。

Mar, 2024

我该使用什么对象？- 任务驱动的对象检测

为了解决机器人或其他自主系统在特定任务中使用哪种对象的问题，介绍了 COCO-Tasks 数据集和利用带门控图神经网络的方法，利用对象的外观以及场景中所有对象的全局环境来检测适合给定任务的最适合的对象。

Apr, 2019

图像字幕视觉语义关联数据集

本论文介绍了一种文本视觉背景数据集，用于改进现代图像描述系统，通过融合与场景相关的文本信息，提高图像描述的准确性及语义关联性。

Jan, 2023

在图像中描述常见的人类视觉动作

在 MS COCO 数据集的图像中，探索了可检测到的动作和交互，包括 140 种常见的视觉动作和其完整的主体 - 客体标注集（COCO-a），该集合相较于现有的动作数据集具有更多的动作数量和实例，并具有更为全面、无偏、独特的定位特征。

Jun, 2015