MMMay, 2024

评估大型语言模型用于公共卫生分类和提取任务

TL;DR基于对 LLMs 在公共卫生任务中的自动评估,将六个外部注释数据集与七个新的内部注释数据集相结合,评估 LLMs 在处理与健康负担、流行病学危险因素和公共卫生干预相关的文本中的性能,发现 Llama-3-70B-Instruct 是性能最好的模型,在 15 个任务中取得最佳结果。这些初步结果表明,LLMs 可能成为公共卫生专家从各种免费文本来源中提取信息,并支持公共卫生监测、研究和干预的有用工具。