COLINGMar, 2024

利用大型语言模型从儿科患者记录中提取社会健康决定因素:新型语料库和方法

TL;DR社会卫生决定因素(SDoH)在塑造健康结果方面起着关键作用,特别是在儿科人群中,干预措施可能具有长期影响。本研究提出了一个新的标注语料库,儿科社会历史标注语料库(PedSHAC),并使用经过精细调优和上下文学习方法结合大型语言模型(LLMs)来评估详细的 SDoH 表征的自动提取。PedSHAC 包括从华盛顿大学医院系统的儿科患者的 1,260 个临床记录中获取的已标注的社会历史部分。采用一个基于事件的标注方案,PedSHAC 涵盖了十个不同的健康决定因素,包括生活和经济稳定性、先前的创伤、教育机会、物质使用历史和心理健康,整体标注一致性为 81.9 F1。我们提出的精细调整的基于 LLM 的提取器以 78.4 F1 的事件参数高性能实现。搭配 GPT-4 的上下文学习方法在有限的标注示例情况下展现了可靠的 SDoH 提取的前景,事件触发器的提取性能达到 82.3 F1。