研究 DermaMNIST 和 Fitzpatrick17k 皮肤科图像数据集的质量

Jan, 2024

研究 DermaMNIST 和 Fitzpatrick17k 皮肤科图像数据集的质量

Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets

Kumar Abhishek, Aditi Jain, Ghassan Hamarneh

TL;DR通过对 DermaMNIST 和 Fitzpatrick17k 两个常用皮肤病图像数据集的细致分析，揭示了数据质量问题对基准结果的影响，并提出数据集的修正方法，旨在鼓励类似研究和帮助其他大型数据集的数据质量问题的识别和解决。

Abstract

The remarkable progress of deep learning in dermatological tasks has brought us closer to achieving diagnostic accuracies comparable to those of human experts. However, while large datasets play a crucial role in

deep learning dermatological tasks data quality dermatological image datasets data analysis

发现论文，激发创造

使用 Fitzpatrick 17k 数据集评估用于皮肤科临床图像训练的深度神经网络

本研究关注如何在不同皮肤颜色的情况下，训练深度神经网络模型对临床皮肤病例进行分类，发现由 Fitzpatrick 皮肤类型标签进行数据注释所训练的深度神经网络模型对相似肤色的图像分类的准确度更高，并通过对比人工标记的 Fitzpatrick 皮肤类型标签和算法判定的肤色类型来进一步评价该深度神经网络模型。

Apr, 2021

朝着可靠的皮肤病评估基准

数字皮肤病学中的基准数据集不知不觉地包含了不准确的信息，这减少了对模型性能评估的信任。我们提出一种资源高效的数据清洗协议，用于识别之前筛选中遗漏的问题。该协议利用现有的算法清洗策略，并在直观的终止准则下进行确认过程。基于多位皮肤科医生的确认，我们移除了不相关的样本和近似重复，并估计了由国际皮肤影像协作组推广的六个皮肤科图像数据集中标签错误的百分比，以进行模型评估。随着本文的发布，我们为每个数据集发布了经修订的文件列表，应用于模型评估。我们的工作为数字皮肤病学中更可靠的性能评估铺平了道路。

Sep, 2023

HAM10000 数据集：常见色素性皮肤病多源皮肤镜图像的大规模收集

利用具有不同种族和不同获取模式的皮肤镜图像，通过不同的采集和清洗方法以及半自动工作流程和特别训练的神经网络，我们成立了 HAM10000 数据集，这个数据集由 10015 个用于学术机器学习目的的皮肤镜图像组成，覆盖养猪场多种重要诊断范畴，用于训练神经网络。

Mar, 2018

数据，深度和设计：用于皮肤病变分析的可靠模型学习

该研究利用两个全因子实验，分析了深度学习模型在皮肤病变分析中的设计和评估方法，结果表明训练数据量、测试数据增强和输入分辨率对模型性能影响最大，而集成模型是一种成本效益高且可靠的替代方法。同时指出，推动皮肤病变分析研究需要积累更大的公共数据集，并要避免使用测试集中的特权信息。

Nov, 2017

多样、筛选的临床图像集上皮肤科 AI 性能的差异

本文提出了困扰全球 30 亿人的皮肤科医疗问题，探讨了如何在多样化皮肤色调和非常见病例的图像中应用人工智能技术，并发现当前的皮肤科 AI 算法存在严重的算法偏差，导致对较暗的肤色和非常见疾病的正确率远低于轻皮肤色调和常见疾病，并进一步探讨了训练皮肤科 AI 模型所使用的基于视觉的人工标签的缺陷与局限性。

Mar, 2022

(去) 构建皮肤病变数据集上的偏差

本文针对现有的皮肤病例资料集中的偏见问题，提出一系列实验，发现机器学习模型在没有临床有意义信息的情况下可以正确分类皮肤病变图像，这强烈暗示了伪相关性引导模型。通过本次实验，揭示了模型在小型数据集中训练和评估的局限性，为未来的模型指导提供了参考。

Apr, 2019

皮肤镜皮肤癌数据集中的领域转移：对临床转化的基本限制的评估

该研究探讨卷积神经网络应用在皮肤镜皮肤癌分类等临床任务时的泛化能力不足问题，并针对不同来源、不同照明条件等影响因素，通过对 ISIC 图像库中图像元数据进行分类，生成包括这些影响因素的数据集，体现数据集间的 “domain shifts”，为评估皮肤癌分类器的泛化能力提供支持。

Apr, 2023

评估基于深度神经网络模型对黑色皮肤病变的普适性

黑色素瘤是皮肤癌症中最严重的一种，深度神经网络在临床护理和皮肤癌症诊断方面表现出巨大潜力，但现有研究主要依赖白人肤色的数据集，忽视了多样人群肤色的诊断结果。本研究评估了有监督和自监督模型在黑人手掌、脚底和指甲等黑人肌肤部位的皮损图像中的性能，并且利用 Fitzpatrick 皮肤色表确保对黑人肌肤的性能。结果显示这些模型的普适性差，表现良好的是对白人肌肤的皮损，缺乏多样化数据集的开发是不可接受的，深度神经网络在改善诊断方面有着巨大潜力，特别是对于接触有限的人群，但包括黑人皮损是必要的，以确保这些人群能够获得包容性技术的好处。

Sep, 2023

用完全卷积神经网络检测临床皮肤镜特征

本研究提出了一种基于全卷积神经网络的方法，将临床显微镜图像中的皮肤病变区域分割出来，利用该方法可以有效地探讨临床皮肤显微镜特征识别问题，并在 ISIC-ISBI Part 2 比赛中取得了显著的优异表现。

Mar, 2017

通过调整临床环境中皮肤病状况分布的差异来缩小人工智能泛化差距

近期，人工智能算法在从临床照片中分类皮肤病方面取得了巨大进展。然而，我们对这些算法在现实环境下的鲁棒性了解甚少，而很多因素可能导致其普适性的丧失。通过理解和克服这些限制，我们可以开发出可以帮助在各种临床环境下诊断皮肤病的具有普适性的人工智能。在这项回顾性研究中，我们证明皮肤病分布的差异是人工智能算法在对来自先前未知来源的数据进行评估时产生错误的主要原因，与人口统计或图像捕捉模式无关。我们展示了一系列步骤来弥合这种普适性差距，需要越来越多关于新数据源的信息，从病症分布到以在训练期间较少接触到的数据为重点的训练数据。我们的研究结果还表明，与仅冻结嵌入模型的分类层进行微调相比，端到端微调的性能相当。根据所掌握的信息和资源，我们的方法可以为人工智能算法在新环境中的应用提供指导。

Feb, 2024