MedMCQA:医学领域问题回答的大规模多学科多选择题数据集
该论文介绍了 FrenchMedMCQA,即用于医学领域的多项选择问答(MCQA)的首个公开数据集,其中包含从法国药学专业毕业考试中提取的 3105 个问题,使用单选和多选题混合,提供基线模型以自动处理此 MCQA 任务。
Apr, 2023
通过训练大规模语言模型来判别医学问题,我们使用多问题序列 BERT 方法训练深度神经网络,实现了在医学多选题数据集上 0.68 和 0.60 的准确率,展示了人工智能和大规模语言模型在医疗领域多分类任务中的能力。
Mar, 2024
KorMedMCQA 是第一个基于韩国医疗保健专业执业许可考试的韩文多项选择题答案基准,涵盖 2012 年至 2023 年,这个数据集包括医生、护士和药剂师执照考试中的一些问题,涉及各种主题。我们在各种大型语言模型上进行了基准实验,包括专有 / 开源、多语言 / 韩文附加预训练和临床背景预训练模型,突显了进一步改进的潜力。我们将我们的数据公开在 HuggingFace 平台上,并通过 LM-Harness 提供了一个评估脚本,邀请在韩国医疗保健环境中进行更深入的探索和进展。
Mar, 2024
本文通过在医学百科全书段落中以疾病名称预测为重点的 Masked Language Modeling 方法,提高了医学多项选择题回答准确率;本文还展示了基于生成的 MCQA 数据集的 fine-tuning 方法胜过基于 MLM 的方法,并且正确遮盖答案线索对于良好表现非常关键。我们发布了新的预训练数据集,并在 4 个 MCQA 数据集上实现了最新最好的结果,在 MedQA-USMLE 上基础型号效果提高了 5.7%。
Mar, 2023
本研究提供了首个针对医疗问题的自由形式多项选择 OpenQA 数据集 MedQA,涵盖三种语言,并通过实现规则和神经网络两种方法进行实验,最终发现即使是当前最好的方法在英语、繁体中文和简体中文问题上也只能实现 36.7%、42.0%和 70.1%的测试准确率,希望这个数据集能够为推动未来更强大的 NLP OpenQA 模型的发展提供平台。
Sep, 2020
通过重新利用其他 NLP 任务的现有注释,我们提出了一种新的方法来生成特定领域的大规模问答(QA)数据集。我们利用社区共享的 i2b2 数据集中临床笔记的现有专家注释,生成了大规模的电子医疗记录 QA 数据集 emrQA,其中包含 100 万个问题 - 逻辑形式对和 40 多万个问题 - 答案证据对,并通过基线模型训练来探索其学习潜力。
Sep, 2018
机器阅读理解在医疗问答系统中发挥着重要作用,本研究通过整合专门的医学数据集和创建专用数据集的方法,提高了问答系统的准确性,为临床决策和医学研究的进展做出贡献。通过对 BERT、RoBERTa 和 Tiny RoBERTa 等模型进行微调,显著提高了对医学内容的响应准确性。
Apr, 2024
PubMedQA 是一个从 PubMed 文摘中收集的生物医学问答(QA)数据集,共有 1k 位专家注释,61.2k 未标记和 211.3k 人工生成的 QA 实例,其中每个实例包括一个问题、相应的摘要、一个长答案和一个总结性答案。采用 BioBERT 的多阶段微调方法,结合长答案单词统计做为额外监督,实现了 68.1% 的准确率,比人类单一表现的 78.0% 的准确率还有改进的空间。
Sep, 2019
介绍新的数据集和任务,旨在促进医疗视频的理解与自然语言问题的视觉回答,并以这两项任务为重心,提供跨模态(医疗语言和医学视频)的理解挑战。这些任务和数据集有助于推动支持公众和医务人员受益的下游应用程序的发展,并已通过医学信息学专家的验证和修正。
Jan, 2022
本研究介绍了一个高质量的包含 3397 个样本的数据集,其中包含多项选择题、答案(包括干扰项)以及其来源文档,可用于问题与干扰项的生成以及探索新的挑战,同时伴随着 Bloom 的认知复杂性水平。所有问题均由专业人员生成以确保其符合教育及学习标准,该数据集对于教育域的研究和评估具有重要价值。
Oct, 2022