May, 2023

Huatuo-26M,一个大规模的中文医学问答数据集

TL;DR本研究释放了一个含有 2600 万问答对的医疗问答数据集,并通过检索和生成方面的基准测试了许多现有方法,结果表明,现有模型的表现远远低于预期,并且该数据集在预训练语言模型时代仍然具有挑战性。此外,本研究实验证明了所提出的数据集在许多方面的好处,即模型零 - shot 训练、用作检索 - 生成的外部知识和在持续训练中使用问答对作为预训练语料库来提高现有预训练语言模型的性能。我们相信,该数据集不仅将有助于医学研究,而且还将有助于患者和临床医生们。