EMNLPSep, 2019

PubMedQA:生物医学研究问答数据集

TL;DRPubMedQA 是一个从 PubMed 文摘中收集的生物医学问答(QA)数据集,共有 1k 位专家注释,61.2k 未标记和 211.3k 人工生成的 QA 实例,其中每个实例包括一个问题、相应的摘要、一个长答案和一个总结性答案。采用 BioBERT 的多阶段微调方法,结合长答案单词统计做为额外监督,实现了 68.1% 的准确率,比人类单一表现的 78.0% 的准确率还有改进的空间。