评估一个基准测试：MS-COCO 的可靠性如何？

ICCVNov, 2023

评估一个基准测试：MS-COCO 的可靠性如何？

Benchmarking a Benchmark: How Reliable is MS-COCO?

Eric Zimmermann, Justin Szeto, Jerome Pasquero, Frederic Ratle

TL;DR使用 Sama-COCO 重注释 MS-COCO 数据集，通过利用形状分析管道发现潜在偏见，训练并评估了模型在这两个数据集上的表现，结果表明注释风格的重要性和注释流程需要密切考虑感兴趣的任务。

Abstract

benchmark datasets are used to profile and compare algorithms across a variety of tasks, ranging from image classification to segmentation, and also play a large role in image pretraining algorithms. Emphasis is placed on results with little regard to the actual content within the data

benchmark datasets algorithm comparison biases annotation styles shape analysis

发现论文，激发创造

使用 COCO 评估目标检测器：一条新的前进之路

通过检查 COCO (2017 版本) 中的成千上万个掩膜，我们发现了不同类型的错误，例如不精确的掩膜边界、未全面注释的实例和错误标记的掩膜。为了保持与先前研究的连续性，我们开发了 COCO-ReM (Refined Masks)，这是一组注释更清晰、掩膜质量明显更好的数据集。我们评估了五十个目标检测器，并发现预测视觉效果更好的掩膜的模型在 COCO-ReM 上得分更高，证实它们由于 COCO-2017 的错误而受到了不正确的惩罚。此外，我们使用 COCO-ReM 训练的模型收敛更快，得分更高，优于使用 COCO-2017 训练的更大的变体，凸显了数据质量在改进目标检测器中的重要性。基于这些发现，我们提倡在未来的目标检测研究中使用 COCO-ReM 数据集。我们的数据集可在此 https URL 获取。

Mar, 2024

RoCOCO：鲁棒性基准 MS-COCO 以测试图像文本匹配模型的鲁棒性

本文提出了一个新的评估基准来测试 ITM 模型的稳健性，加入了各种欺骗性图像和标题来检测模型。结果发现，添加这些图像和标题会降低 SOTA 模型的性能，预计这些结果能提高模型的鲁棒性和引入更多的评估方法。

Apr, 2023

COCONut：现代化 COCO 分割

最近几十年来，视觉学界在视觉识别方面取得了显著进展，其中一部分要归功于数据集基准的进步。本研究通过提高标注质量和扩大数据集范围，引入了 COCONut 数据集，该数据集包含 383K 张图像和超过 5.18M 个分割掩模，并通过特别精心设计的高质量掩模将语义、实例和全景分割的标注统一起来，为所有分割任务建立了一个稳健的基准。我们相信 COCONut 的发布将极大地促进社区评估新型神经网络的进展。

Apr, 2024

从 ImageNet 到图像分类：基准测试上的进展与语境

通过人工研究这项工作研究了采用众包数据收集管道构建丰富的机器学习数据集的后果，重点关注了流行的 ImageNet 数据集，在 ImageNet 创建过程中特定的设计选择如何影响所得到的数据集的保真度，以及噪声数据收集管道如何导致所得基准与其代理真实世界任务之间存在系统性偏差。最后，发现需要扩充我们的模型培训和评估工具包，以考虑这种不对齐现象。

May, 2020

跨模态图像 - 文本检索基准的重新思考

本文针对图文检索中的细粒度语义匹配问题，以 MSCOCO-Test-5K 和 Flickr30K-Test-1K 数据集不足的情况为背景，提出了将其重建为 MSCOCO-FG 和 Flickr30K-FG 等数据集的方法，并通过模型评估和实验指出了模型在细粒度语义理解方面的不足之处和提升空间。

Apr, 2023

重访牛津和巴黎：大规模图像检索基准测试

本文研究图像检索基准测试中的问题，特别是注释错误、数据集大小和难度水平等方面，并创建了新的数据集注释，引入了三个不同难度的协议以公平地比较不同方法，在新基准测试中进行了先进方法的广泛比较。

Mar, 2018

对语义分割模型鲁棒性的基准测试

本研究的目的是针对 DeepLabv3+ 模型在语义分割应用中的鲁棒性进行全面调查，研究结果显示性能与鲁棒性有很大关系，而有些架构属性则对鲁棒性产生了显著影响。

Aug, 2019

COCO-O：自然分布偏移情况下的目标检测器基准测试

通过引入基于 COCO 的 COCO-O 测试数据集，研究了 100 多种现代目标检测器的鲁棒性效果，并发现了各种架构设计、数据增强和预训练技术对鲁棒性的影响。

Jul, 2023

XIMAGENET-12：一个可解释的 AI 基准数据集用于模型鲁棒性评估

为了解决标准化鲁棒性评估指标缺乏和过多无关基准数据集的问题，我们引入了 XIMAGENET-12，一个可解释的基准数据集，包含 20 万多张图像和 15,600 个手动语义注释。同时，我们提出了一个新的鲁棒性评估标准，超越了模型生成能力的评估。研究人员和从业者可以利用这个资源，在具有挑战性的条件下评估他们的视觉模型的鲁棒性，并从实际的计算机视觉系统需求中受益。

Oct, 2023

COCO-Text: 自然图像文本检测和识别数据集与基准

本文介绍了 COCO-Text 数据集，该数据集基于 MS COCO 数据集，旨在推进自然图像的文本检测和识别。数据集中包含超过 173,000 个文本注释和超过 63,000 张图像，文本注释覆盖了文本的边界框、机器印刷文本和手写文本的分类、易读和难读文本的分类、文本的字体和可读文本的转录。本文还提供了数据集注释的准确性统计分析，并对三种最先进的光学字符识别方法在数据集上的表现进行了分析，结果表明文本检测和识别存在显著的不足，需要进一步研究。

Jan, 2016