大型语言模型在医学科目多选题分类中的应用

Mar, 2024

大型语言模型在医学科目多选题分类中的应用

Large Language Models for Multi-Choice Question Classification of Medical Subjects

Víctor Ponce-López

TL;DR通过训练大规模语言模型来判别医学问题，我们使用多问题序列 BERT 方法训练深度神经网络，实现了在医学多选题数据集上 0.68 和 0.60 的准确率，展示了人工智能和大规模语言模型在医疗领域多分类任务中的能力。

Abstract

The aim of this paper is to evaluate whether large language models trained on multi-choice question data can be used to discriminate between medical subjects. This is an important and challenging task for automatic question answering. To achieve this goal, we train →

large language models medical subjects automatic question answering deep neural networks healthcare domain

发现论文，激发创造

多项选择题与大型语言模型：以虚构医疗数据为例的案例研究

利用模拟医学考题的方法评估大型语言模型在医学领域的表现，发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力，而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法，以更好地评估大型语言模型在医学背景下的真实能力。

Jun, 2024

MedLM：探索面向医学问答系统的语言模型

本研究通过比较一般性和专用于医学问答的精简语言模型的性能，旨在填补这方面的空白，并评估不同语言模型家族的性能，以探讨这些模型在医学问答领域的可靠性、比较性能和有效性，从而为不同语言模型在医学领域的特定应用提供有价值的见解。

Jan, 2024

MedREQAL: 通过问答方式检验大型语言模型对医学知识的记忆能力

近年来，大型语言模型（LLMs）在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集，评估了六种 LLMs（如 GPT 和 Mixtral）在医学知识回忆方面的能力，并揭示了此任务的复杂性。

Jun, 2024

在医学问题回答中探索大型语言模型的领域：观察和开放性问题

通过评估各种流行的大型语言模型对医学问题的知识，我们能够更好地了解它们作为一个群体的特性。从这次比较中，我们提供了初步的观察结果并提出了进一步研究的问题。

Oct, 2023

使用干扰项和提示掩盖为医疗问答生成多选题

本文通过在医学百科全书段落中以疾病名称预测为重点的 Masked Language Modeling 方法，提高了医学多项选择题回答准确率；本文还展示了基于生成的 MCQA 数据集的 fine-tuning 方法胜过基于 MLM 的方法，并且正确遮盖答案线索对于良好表现非常关键。我们发布了新的预训练数据集，并在 4 个 MCQA 数据集上实现了最新最好的结果，在 MedQA-USMLE 上基础型号效果提高了 5.7%。

Mar, 2023

多项选择问题回答中大型语言模型的局限性研究

通过分析 26 个小型开源模型，发现 65% 的模型不能理解任务，只有 4 个模型能正确选择答案，其中只有 5 个模型对选项顺序无关，这些结果对于广泛使用 MCQ 测试的模型来说相当令人担忧。建议在任何情况下使用 MCQ 评估 LLMs 之前要小心谨慎地测试任务理解能力。

Jan, 2024

医疗领域中的大型语言模型：一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

MedMCQA：医学领域问题回答的大规模多学科多选择题数据集

MedMCQA 是一个新的大型多项选择题答题数据集，收集了超过 194,000 个高质量的 AIIMS 和 NEET PG 考试的 MCQs，涵盖 2,400 多个医疗主题和 21 个医学科目，并测试模型在广泛的医学主题和话题上的 10 + 种推理能力。

Mar, 2022

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

通用到医疗应用的大型语言模型调查：数据集、方法论和评估

大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLMs 发展的方法。

Jun, 2024