EMNLPSep, 2018

emrQA:基于电子病历的问题回答的大型语料库

TL;DR通过重新利用其他 NLP 任务的现有注释,我们提出了一种新的方法来生成特定领域的大规模问答(QA)数据集。我们利用社区共享的 i2b2 数据集中临床笔记的现有专家注释,生成了大规模的电子医疗记录 QA 数据集 emrQA,其中包含 100 万个问题 - 逻辑形式对和 40 多万个问题 - 答案证据对,并通过基线模型训练来探索其学习潜力。