MMMay, 2024
增强数据质量保证的众包方法:缓解医疗领域大型语言模型训练中资源稀缺挑战的有效途径
Crowdsourcing with Enhanced Data Quality Assurance: An Efficient Approach to Mitigate Resource Scarcity Challenges in Training Large Language Models for Healthcare
P. Barai, G. Leroy, P. Bisht, J. M. Rothman, S. Lee...
TL;DR本研究提出了一种在低资源领域(如医疗保健)采用预处理、实时控制和数据收集后的质量控制措施来改善数据质量的众包框架,通过评估 Bio-BERT 对预测自闭症相关症状的影响,结果显示实时质量控制相较于预处理可提高数据质量 19%,尽管在精度方面有所降低,但使用众包数据进行 Bio-BERT 的微调通常会提高召回率。本研究揭示了众包和质量控制在资源有限环境中优化医疗保健大型语言模型以进行明智决策和改善患者护理的潜力。