Feb, 2024

应对医疗语言模型中的认知偏差

TL;DR这项研究开发了 BiasMedQA 作为一种新的基准测试方法,评估大型语言模型在医学任务中受认知偏差影响的程度,并发现 GPT-4 对偏差具有较强的韧性,而 Llama 2 70B-chat 和 PMC Llama 13B 则受偏差影响较大,这凸显了在医学语言模型开发中需致力于偏差缓解,以实现在医疗保健领域更安全、可靠的应用。