MedDialog:两个大规模医学对话数据集
该研究提出一种基于医疗对话的药物推荐方法,使用自然语言处理技术结合病历数据,构建了一个高质量的医疗对话数据集 DIALMED, 并提出了 DDN 模型和 QA 对话图机制,有效考虑了各种因素的影响,实现了医患对话中对药物的智能推荐。
Feb, 2022
本文介绍了 MMDialog 数据集、提出并规范了两个基于检索和生成场景的反应生成任务,还构建了两个基线,并提出了一种新的评估指标 MM-Relevance,用于衡量多模态反应。
Nov, 2022
本文介绍了 COVID-19 疾病的多轮医疗对话数据集 CDialog,包含超过 1,000 个对话,带有七个医疗实体类别的注释,利用预训练的语言模型和医疗实体信息提高了自动生成医疗对话模型的响应质量。
Nov, 2022
使用生成型的大型语言模型,在中医问答领域表现令人不满意,本研究引入了一个专门为中医问答设计的对话模型 MedChatZH,该模型在中医经典著作上进行预训练,并结合医学指南数据进行精细调优,在真实的医学对话数据集上胜过了几个基线模型。我们在链接上发布了我们的模型、代码和数据集,以促进传统中医和大型语言模型领域的进一步研究。
Sep, 2023
本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC,包含基础版和大型版两种版本,共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外,本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型,这些数据集和模型将有助于研究短文本对话建模。
Aug, 2020
本研究释放了一个含有 2600 万问答对的医疗问答数据集,并通过检索和生成方面的基准测试了许多现有方法,结果表明,现有模型的表现远远低于预期,并且该数据集在预训练语言模型时代仍然具有挑战性。此外,本研究实验证明了所提出的数据集在许多方面的好处,即模型零 - shot 训练、用作检索 - 生成的外部知识和在持续训练中使用问答对作为预训练语料库来提高现有预训练语言模型的性能。我们相信,该数据集不仅将有助于医学研究,而且还将有助于患者和临床医生们。
May, 2023
为了解决 COVID-19 期间在线咨询医生不及时的问题,我们开发了一种医学对话系统,该系统基于 Transformer,GPT 和 BERT-GPT 训练了几个对话生成模型,并使用迁移学习减轻数据缺乏的风险。自动和人工评估表明,这些模型生成的响应很有前途,类似于医生,并且与对话历史相关和具有临床信息。数据和代码可在提供的 https URL 中获得。
May, 2020
本研究利用 Project Gutenberg 公共领域书籍中的对话构建了一个包括 14.8M 个语言表达的高质量对话数据集,分析并展示了对话提取管道的效果和误差分析。实验表明,训练我们的数据可以比训练更大但更嘈杂的 Opensubtitles 数据集在零射击和精调设置下取得更好的响应质量。同时,我们还建立了一个 Web 演示,通过调整各种平衡参数,研究人员可以构建他们版本的现有数据集。
Apr, 2020
VietMed 是目前世界上最大的公共医学语音识别数据集,涵盖了语音数据、医学领域、越南语、预训练模型等方面,同时还包含涉及 ICD-10 疾病群和国内不同口音的数据。
Apr, 2024