Jul, 2024

开放(临床)LLMs 对指导措辞敏感

TL;DR通过收集医学医生在各种任务中提供的提示,并量化七个(包括泛化和专业化的)大型语言模型对于自然语言变化引导的临床自然语言处理任务的敏感性,我们发现在所有模型中,性能差异很大,并且专门在临床数据上进行训练的领域特定模型比其泛域对应模型更加脆弱。而且,任意变化的指示问题可以影响公平性,例如针对死亡率预测的有效但不同的指示给出了整体性能和不同人群之间的差异范围。