图像处理指标的普遍限制：一个图片故事

MMApr, 2021

图像处理指标的普遍限制：一个图片故事

Common Limitations of Image Processing Metrics: A Picture Story

Annika Reinke, Minu D. Tizabi, Carole H. Sudre, Matthias Eisenmann, Tim Rädsch...

TL;DR本研究通过国际图像分析专家团队的 Delphi 过程，指出算法验证中经常存在的性能度量的局限性，无法全面评估自动算法的有效性及透明性，特别是在医学图像分析方面，这一问题尤为突出。

Abstract

While the importance of automatic image analysis is continuously increasing, recent meta-research revealed major flaws with respect to algorithm validation. →

automatic image analysis algorithm validation performance metrics biomedical image analysis object detection

发现论文，激发创造

重新思考医学图像转换的感知度度量

对医学图像翻译的评估指标进行研究，发现感知度指标通常与分割指标不相关，但是像素级 SWD 指标在细微的内模态翻译中可能有用，结果表明需要进一步研究有助于医学图像翻译的评估指标。

Apr, 2024

生物医学图像分析竞赛排名需谨慎解读

本文中对已进行的生物医学图像分析挑战进行全面分析，展示了挑战的重要性，并表明缺乏质量控制具有重要影响，因此建议采用最佳实践指南以避免问题，并针对未来需解决的开放性研究问题进行定义。

Jun, 2018

推动文本到图像模型评估中的地理包容性

通过进行大规模的跨文化研究，我们发现不同地理位置的人对地理表达、视觉吸引力和一致性的偏好存在显著差异，并且目前常用的自动评估指标不能充分考虑这种多样性。我们建议改进自动和人工评估方法。

May, 2024

医学图像协调性基准化的定量度量

图像协调是处理医学图像中不同机器和扫描协议引起的领域转变的重要预处理策略。然而，由于缺乏广泛可用的标准数据集和基准，评估协调技术的有效性一直是一个挑战。在这个背景下，我们提出了三个指标：两个用于图像强度协调的指标和一个用于维持解剖结构的指标，无需基准。通过在一个具有可用协调基准的数据集上进行广泛研究，我们证明了我们的指标与已建立的图像质量评估指标相关。我们展示了这些新型指标如何应用于没有协调基准的实际情况，并提供了对度量值不同解释的见解，从而揭示了在协调过程中它们的重要性。根据我们的发现，我们倡导采用这些定量协调指标作为评估图像协调技术性能的标准。

Feb, 2024

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020

关于像素级异常检测性能评估的研究

在本研究中，我们通过可视证据和统计分析剖析了像素级异常检测中存在的正常样本和异常样本严重不平衡的复杂挑战，并深入探讨了需要考虑不平衡的评估指标的需求。通过对 21 个异常检测问题上使用 11 种领先的现代异常检测方法进行广泛实验评估，我们可以得出结论，基于 Precision-Recall 的指标可以更好地捕捉方法性能的相对关系，使其更适用于这一任务。

Oct, 2023

指标问题是人工智能的根本问题

通过真实案例研究，本文探讨了当前 AI 方法中度量标准的错误使用导致的负面后果，并倡导使用多个度量标准，结合定性分析，并涉及各种利益相关者，以减轻度量标准重视过度造成的伤害。

Feb, 2020

分类评估指标的深入研究及对常见评估实践的批判性反思

分类系统在无数篇论文中进行评估。然而，我们发现评估实践通常是模糊的。经常情况下，指标选择是没有依据的，模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发，对常用的评估指标进行分析，考虑到论文中所表达的期望。通过对度量选择的全面理解，我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示，度量选择通常缺乏令人信服的论证，这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导，以实现更有见地和透明的度量选择，推动有意义的评估。

Apr, 2024

迁移性指标的表现在医学任务中不可靠

通过对三个医学应用进行深入评估，我们的研究表明没有任何可靠和一致的迁移性评分能够准确估计医学环境下的目标性能，这为进一步研究指明了方向。

Aug, 2023

重新评估图像字幕自动评估指标

本文通过一系列的实验，深入评估了现有的图像字幕度量，并探索了最近提出的 Word Mover's Distance（WMD）文档度量在图像字幕中的应用。结果表明，WMD 相比其他度量具有较强的优势。

Dec, 2016