Apr, 2025

BRIDGE:基于现实世界临床实践文本的大型语言模型基准测试

TL;DR本研究针对当前大型语言模型(LLMs)在临床实践中的评估限制,提出了多语言基准BRIDGE,涵盖来自现实世界临床数据的87个任务。研究发现,开源LLMs的性能可与专有模型相媲美,同时基于旧架构的医学微调LLMs通常表现不佳。这为新的LLMs在理解真实世界临床文本的开发与评估提供了重要资源。