Feb, 2024

应对医疗语言模型中的认知偏差

TL;DR这项研究开发了BiasMedQA作为一种新的基准测试方法,评估大型语言模型在医学任务中受认知偏差影响的程度,并发现GPT-4对偏差具有较强的韧性,而Llama 2 70B-chat和PMC Llama 13B则受偏差影响较大,这凸显了在医学语言模型开发中需致力于偏差缓解,以实现在医疗保健领域更安全、可靠的应用。