Aug, 2024

生物医学大语言模型似乎不如通用模型在未见医疗数据上的表现

TL;DR本研究探讨了生物医学领域特定微调的大语言模型在面对不同临床任务时的有效性,发现其大多数情况下表现不及通用模型。特别是在缺乏医学知识的任务中,小型生物医学模型表现尤为逊色。这一发现挑战了当前关于领域特定微调的假设,并强调了在医疗人工智能中需要更严格的评估框架。