MedDialog：两个大规模医学对话数据集

Apr, 2020

MedDialog：两个大规模医学对话数据集

MedDialog: Two Large-scale Medical Dialogue Datasets

Xuehai He, Shu Chen, Zeqian Ju, Xiangyu Dong, Hongchao Fang...

TL;DR本研究建立了两个大规模医疗对话数据集：MedDialog-EN 和 MedDialog-CN，它们分别包括英语和中文的病患与医生之间的对话，以帮助研究和开发医疗对话系统。这些数据集是迄今为止最大的医疗对话数据集。

Abstract

medical dialogue systems are promising in assisting in telemedicine to increase access to healthcare services, improve the quality of

medical dialogue systems telemedicine healthcare services patient care medical costs

发现论文，激发创造

DialMed: 基于对话的药物推荐数据集

该研究提出一种基于医疗对话的药物推荐方法，使用自然语言处理技术结合病历数据，构建了一个高质量的医疗对话数据集 DIALMED, 并提出了 DDN 模型和 QA 对话图机制，有效考虑了各种因素的影响，实现了医患对话中对药物的智能推荐。

Feb, 2022

MMDialog：面向多模态开放领域对话的大规模多轮对话数据集

本文介绍了 MMDialog 数据集、提出并规范了两个基于检索和生成场景的反应生成任务，还构建了两个基线，并提出了一种新的评估指标 MM-Relevance，用于衡量多模态反应。

Nov, 2022

CDialog：针对实体感知的对话生成的多轮 Covid-19 对话数据集

本文介绍了 COVID-19 疾病的多轮医疗对话数据集 CDialog，包含超过 1,000 个对话，带有七个医疗实体类别的注释，利用预训练的语言模型和医疗实体信息提高了自动生成医疗对话模型的响应质量。

Nov, 2022

MedChatZH：一个更好的医疗顾问从更好的指南中学习

使用生成型的大型语言模型，在中医问答领域表现令人不满意，本研究引入了一个专门为中医问答设计的对话模型 MedChatZH，该模型在中医经典著作上进行预训练，并结合医学指南数据进行精细调优，在真实的医学对话数据集上胜过了几个基线模型。我们在链接上发布了我们的模型、代码和数据集，以促进传统中医和大型语言模型领域的进一步研究。

Sep, 2023

一个大规模的中文短文本对话数据集

本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC，包含基础版和大型版两种版本，共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外，本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型，这些数据集和模型将有助于研究短文本对话建模。

Aug, 2020

Huatuo-26M，一个大规模的中文医学问答数据集

本研究释放了一个含有 2600 万问答对的医疗问答数据集，并通过检索和生成方面的基准测试了许多现有方法，结果表明，现有模型的表现远远低于预期，并且该数据集在预训练语言模型时代仍然具有挑战性。此外，本研究实验证明了所提出的数据集在许多方面的好处，即模型零 - shot 训练、用作检索 - 生成的外部知识和在持续训练中使用问答对作为预训练语料库来提高现有预训练语言模型的性能。我们相信，该数据集不仅将有助于医学研究，而且还将有助于患者和临床医生们。

May, 2023

关于 COVID-19 医疗对话生成的研究

为了解决 COVID-19 期间在线咨询医生不及时的问题，我们开发了一种医学对话系统，该系统基于 Transformer，GPT 和 BERT-GPT 训练了几个对话生成模型，并使用迁移学习减轻数据缺乏的风险。自动和人工评估表明，这些模型生成的响应很有前途，类似于医生，并且与对话历史相关和具有临床信息。数据和代码可在提供的 https URL 中获得。

May, 2020

古腾堡对话数据集

本研究利用 Project Gutenberg 公共领域书籍中的对话构建了一个包括 14.8M 个语言表达的高质量对话数据集，分析并展示了对话提取管道的效果和误差分析。实验表明，训练我们的数据可以比训练更大但更嘈杂的 Opensubtitles 数据集在零射击和精调设置下取得更好的响应质量。同时，我们还建立了一个 Web 演示，通过调整各种平衡参数，研究人员可以构建他们版本的现有数据集。

Apr, 2020

VietMed：越南医学领域智能语音识别的数据集和基准

VietMed 是目前世界上最大的公共医学语音识别数据集，涵盖了语音数据、医学领域、越南语、预训练模型等方面，同时还包含涉及 ICD-10 疾病群和国内不同口音的数据。

Apr, 2024

医学对话：类别、方法、评估和挑战的调查

这篇论文从技术角度对医疗对话系统进行了调查和组织，总结了医疗对话系统的分类、方法和评估，并列出了医疗对话系统的主要挑战，尤其是大型语言模型。

May, 2024