Aug, 2023

当多得更少:引入额外数据集可能会通过引入虚假关联降低性能

TL;DR在大规模实证研究中,结合四个不同的开源胸部 X 光数据集和九个不同标签的组合的情况下,通过数据来自两家医院进行训练的模型在两个医院的最差组精度方面甚至比仅使用单家医院的数据进行训练的模型更差。这种出人意料的结果是由于医院特定的图像伪相关性造成的,同时说明了训练多个数据集的权衡,即额外数据的明显好处和引入伪相关性的隐蔽成本。这些风险凸显了在未来的研究和实践中对于仔细的数据选择和模型评估的需求。