Nov, 2023

我需要多少数据?一项有关医疗数据的案例研究

TL;DR数据采集和深度学习网络训练消耗巨大的工作量和资源,在医疗领域尤为明显,需要侵入性的医疗程序或可能导致医学危害的过程,然而深度学习被视为数据需求量大的方法。在本研究中,我们评估了六个医疗数据集和六个通用数据集,训练 ResNet18 网络在这些数据集的不同子集上以评估 “更多数据得到更好的结果” 的观点,然后我们以十一个数据集作为转移学习的源数据,用在第十二个数据集(Chest 数据集)的不同子集上,以判断转移学习是否普遍有益。我们进一步探究多阶段转移学习是否能提供一致的益处。我们的分析表明,真实情况比这些简单的观点更复杂 —— 更多数据可能导致收益递减,选择错误的数据集进行转移学习可能会导致性能下降,而与 Chest 数据集高度相似的数据集相比,与之不太相似的数据集可能得到更差的结果。多阶段转移学习也揭示了数据集之间复杂的关系。