大型语言模型在医学科目多选题分类中的应用
利用模拟医学考题的方法评估大型语言模型在医学领域的表现,发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力,而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法,以更好地评估大型语言模型在医学背景下的真实能力。
Jun, 2024
本研究通过比较一般性和专用于医学问答的精简语言模型的性能,旨在填补这方面的空白,并评估不同语言模型家族的性能,以探讨这些模型在医学问答领域的可靠性、比较性能和有效性,从而为不同语言模型在医学领域的特定应用提供有价值的见解。
Jan, 2024
近年来,大型语言模型(LLMs)在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集,评估了六种 LLMs(如 GPT 和 Mixtral)在医学知识回忆方面的能力,并揭示了此任务的复杂性。
Jun, 2024
通过评估各种流行的大型语言模型对医学问题的知识,我们能够更好地了解它们作为一个群体的特性。从这次比较中,我们提供了初步的观察结果并提出了进一步研究的问题。
Oct, 2023
本文通过在医学百科全书段落中以疾病名称预测为重点的 Masked Language Modeling 方法,提高了医学多项选择题回答准确率;本文还展示了基于生成的 MCQA 数据集的 fine-tuning 方法胜过基于 MLM 的方法,并且正确遮盖答案线索对于良好表现非常关键。我们发布了新的预训练数据集,并在 4 个 MCQA 数据集上实现了最新最好的结果,在 MedQA-USMLE 上基础型号效果提高了 5.7%。
Mar, 2023
通过分析 26 个小型开源模型,发现 65% 的模型不能理解任务,只有 4 个模型能正确选择答案,其中只有 5 个模型对选项顺序无关,这些结果对于广泛使用 MCQ 测试的模型来说相当令人担忧。建议在任何情况下使用 MCQ 评估 LLMs 之前要小心谨慎地测试任务理解能力。
Jan, 2024
MedMCQA 是一个新的大型多项选择题答题数据集,收集了超过 194,000 个高质量的 AIIMS 和 NEET PG 考试的 MCQs,涵盖 2,400 多个医疗主题和 21 个医学科目,并测试模型在广泛的医学主题和话题上的 10 + 种推理能力。
Mar, 2022
该论文介绍了 MedExpQA,一个基于医学考试的多语言基准,用于评估大型语言模型在医学问答中的表现,并指出目前大型语言模型的性能还有很大的改进空间,特别是对于英语以外的语言。同时,该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难,并呼吁进一步开发其他语言的基准。
Apr, 2024
大型语言模型(LLMs)在各种自然语言处理任务中表现出令人惊讶的性能。最近,结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs,并提供了指导各种医学应用的 LLMs 发展的方法。
Jun, 2024