CheXpert:一份具有不确定性标签和专家比较的大型胸透数据集
本文介绍了一个标记大规模、高分辨率的胸部 X 光数据集,用于自动探索医学图像和相关报告,并在报告中标记了 174 个不同的放射学发现,19 个不同的差异诊断和 104 个不同的解剖部位位置,这些标记数据可用于训练监督模型关于放射学图像的分析与识别。此数据集可在 http URL 下载。
Jan, 2019
本研究介绍了一个包含超过 10 万张胸部 X 射线扫描的数据集,其中 18000 张图像被 17 名经验丰富的放射科医生手动标注,包括 22 个异常部位的局部标签和 6 个可疑疾病的全局标签,该数据集的发布将为胸部异常的检测和定位的机器学习算法的发展提供帮助。
Dec, 2020
本文介绍了一个新的胸部 X 光数据库,名为 “ChestX-ray8”,其中包括 108948 个患者的 32,717 个独特患者的前瞻性 X 光图像 和使用自然语言处理从相关放射学报告中提取的八个疾病图像标签。作者展示了这些常见的胸部疾病可以通过弱监督的多标签图像分类和疾病定位框架进行检测甚至空间定位,并证明了这一点。尽管初始数量结果报告良好,但基于深度卷积神经网络的 “阅读胸部 X 射线”(仅通过图像级标签训练)仍然是完全自动化的高精度 CAD 系统的艰巨任务。
May, 2017
本文旨在探讨开放式医疗数据集的质量控制问题,通过对 ChestXray14 和 MURA 两个数据集的视觉比对,发现标签的准确性存在问题,该研究建议公开数据集制作者应当进行质量控制并提供详细的数据生成过程及标注规则描述。
Jul, 2019
研究发现通过使用基于卷积神经网络的算法 CheXNet,可以高于目前实践放射科医师的水平从胸部 X 光片中检测出肺炎,该算法使用了目前最大的公开数据集 ChestX-ray14,并可以检测数据集中的 14 种疾病并达到最先进的结果。
Nov, 2017
CheXpert Plus 是放射学领域最大的公开发布的文本数据集,其中包含 3600 万个文本标记,包括 1300 万个印象标记。它代表了放射学领域最大的文本去识别努力之一,其中近 100 万个 PHI 跨度被匿名化。这是仅有的第二个在放射学领域发布的大规模英语成对数据集,首次实现了跨机构的大规模训练。我们希望这个数据集能够促进 AI 模型的研究,进一步协助放射科医生并改善医疗护理。
May, 2024
通过六个公开数据库的统一和精细的解剖学标注,提出了一个广泛的胸部 X 射线多中心分割数据集。在这个数据集中,使用 HybridGNet 模型进行严格的验证和高质量的分割,提供了每个掩膜的个性化质量指数和数据集的整体质量评估。该数据集对于胸部 X 射线分析方法的开发和评估具有重要价值。
Jul, 2023
该研究提出了一种基于深度卷积神经网络的监督式多标签分类框架,用于预测 14 种常见胸部疾病的风险,同时针对常见胸透数据集中不确定样本占据的显著比例,提出了标签平滑技术。在超过 200k 的数据集上训练,该模型在 5 项病理学的验证集中实现了 0.940 的平均 AUC 分数,表现高于独立测试集中的其他三位医学专家,该方法在 CheXpert 排行榜上排名第一。
Nov, 2019
使用智能手机拍摄胸部 x 线照片并对其进行自动化解释需要可靠的算法。为了解决这个问题,我们介绍了一个基于 CheXpert 数据集的 CheXphoto 数据集,该数据集包含了智能手机拍摄的照片和经过合成变换的数字 x 线照片,旨在测试和提高深度学习算法对智能手机照片的鲁棒性。
Jul, 2020
利用深度卷积神经网络(CNNs)构建了一个多标签分类框架,能够准确检测 14 种常见胸部疾病和病灶的存在,通过对 UGCXR 数据集的训练,该模型取得了目前最高的 AUC 分数 0.940, 平均优于独立评审组中的 2.6 位放射科医生,表现优于目前 CheXpert 测试集上的其他分类器。
May, 2020