医学考试开放领域大规模问答数据集：这位病人患有何种疾病？

AAAISep, 2020

医学考试开放领域大规模问答数据集：这位病人患有何种疾病？

What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams

Di Jin, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang...

TL;DR本研究提供了首个针对医疗问题的自由形式多项选择 OpenQA 数据集 MedQA，涵盖三种语言，并通过实现规则和神经网络两种方法进行实验，最终发现即使是当前最好的方法在英语、繁体中文和简体中文问题上也只能实现 36.7％、42.0％和 70.1％的测试准确率，希望这个数据集能够为推动未来更强大的 NLP OpenQA 模型的发展提供平台。

Abstract

open domain question answering (openqa) tasks have been recently attracting more and more attention from the natural language processing (

open domain question answering openqa natural language processing medqa dataset machine comprehension

发现论文，激发创造

Huatuo-26M，一个大规模的中文医学问答数据集

本研究释放了一个含有 2600 万问答对的医疗问答数据集，并通过检索和生成方面的基准测试了许多现有方法，结果表明，现有模型的表现远远低于预期，并且该数据集在预训练语言模型时代仍然具有挑战性。此外，本研究实验证明了所提出的数据集在许多方面的好处，即模型零 - shot 训练、用作检索 - 生成的外部知识和在持续训练中使用问答对作为预训练语料库来提高现有预训练语言模型的性能。我们相信，该数据集不仅将有助于医学研究，而且还将有助于患者和临床医生们。

May, 2023

MedMCQA：医学领域问题回答的大规模多学科多选择题数据集

MedMCQA 是一个新的大型多项选择题答题数据集，收集了超过 194,000 个高质量的 AIIMS 和 NEET PG 考试的 MCQs，涵盖 2,400 多个医疗主题和 21 个医学科目，并测试模型在广泛的医学主题和话题上的 10 + 种推理能力。

Mar, 2022

FrenchMedMCQA：一份针对医学领域的法语多项选择题答题数据集

该论文介绍了 FrenchMedMCQA，即用于医学领域的多项选择问答（MCQA）的首个公开数据集，其中包含从法国药学专业毕业考试中提取的 3105 个问题，使用单选和多选题混合，提供基线模型以自动处理此 MCQA 任务。

Apr, 2023

大规模阅读理解下的医学体检问题解答

该研究提出了一个名为 MedQA 的问答任务，使用大规模文档集中的知识研究临床医学中的问题解答。提出了一种基于 LSTM 网络和双路径注意力架构的模块化端到端阅读理解模型 SeaReader，其具有从两个角度建模信息流和同时读取和整合多篇文档的能力。实验证明，SeaReader 在 MedQA 上比竞争模型实现了大幅提高，同时开发了一系列新技术以展示 SeaReader 问题解答过程的解释。

Feb, 2018

使用干扰项和提示掩盖为医疗问答生成多选题

本文通过在医学百科全书段落中以疾病名称预测为重点的 Masked Language Modeling 方法，提高了医学多项选择题回答准确率；本文还展示了基于生成的 MCQA 数据集的 fine-tuning 方法胜过基于 MLM 的方法，并且正确遮盖答案线索对于良好表现非常关键。我们发布了新的预训练数据集，并在 4 个 MCQA 数据集上实现了最新最好的结果，在 MedQA-USMLE 上基础型号效果提高了 5.7%。

Mar, 2023

TCMD：一个用于评估大型语言模型的中医问答数据集

通过引入新的医学问答数据集 TCMD，本文评估了不同领域通用语言模型和医学领域特定语言模型在中医领域的能力，并分析了它们在中医问答任务中的鲁棒性及其存在的不足。希望该数据集进一步促进中医领域通用语言模型的发展。

Jun, 2024

MedChatZH：一个更好的医疗顾问从更好的指南中学习

使用生成型的大型语言模型，在中医问答领域表现令人不满意，本研究引入了一个专门为中医问答设计的对话模型 MedChatZH，该模型在中医经典著作上进行预训练，并结合医学指南数据进行精细调优，在真实的医学对话数据集上胜过了几个基线模型。我们在链接上发布了我们的模型、代码和数据集，以促进传统中医和大型语言模型领域的进一步研究。

Sep, 2023

emrQA：基于电子病历的问题回答的大型语料库

通过重新利用其他 NLP 任务的现有注释，我们提出了一种新的方法来生成特定领域的大规模问答（QA）数据集。我们利用社区共享的 i2b2 数据集中临床笔记的现有专家注释，生成了大规模的电子医疗记录 QA 数据集 emrQA，其中包含 100 万个问题 - 逻辑形式对和 40 多万个问题 - 答案证据对，并通过基线模型训练来探索其学习潜力。

Sep, 2018

面向生物医学问答的神经领域自适应

本文介绍了一种基于迁移学习技术，将神经网络模型应用在生物医学领域的事实型问答系统上的方法，通过加入生物医学文本嵌入和一种新的回答列表问题的机制来改进该系统，避免了使用昂贵的特定领域本体论、解析器或实体标注器。结果表明，该系统在事实型问题上达到了最新水平，在列表问题上取得了竞争性的结果。

Jun, 2017

PubMedQA：生物医学研究问答数据集

PubMedQA 是一个从 PubMed 文摘中收集的生物医学问答（QA）数据集，共有 1k 位专家注释，61.2k 未标记和 211.3k 人工生成的 QA 实例，其中每个实例包括一个问题、相应的摘要、一个长答案和一个总结性答案。采用 BioBERT 的多阶段微调方法，结合长答案单词统计做为额外监督，实现了 68.1% 的准确率，比人类单一表现的 78.0% 的准确率还有改进的空间。

Sep, 2019