EMNLPSep, 2019

利用预训练语言表示和最少任务特定架构的生物医学关系提取

TL;DR本文介绍了我们参与 2019 年 BioNLP 开放共享任务的 AGAC Track,我们提供了 Task 3 的解决方案,该方案旨在提取 “基因 - 功能变化 - 疾病” 三元组,其中 “基因” 和 “疾病” 分别是特定基因和疾病的提及,而 “功能变化” 则是四种预定义的关系类型之一。我们的系统扩展了 BERT (Devlin 等,2018 年),这是一种最先进的语言模型,它从大型未标记语料库中学习上下文语言表示,并且其参数可以被微调以解决具有极简附加架构的特定任务。我们将两个提及及其文本上下文作为 BERT 中的两个连续序列进行编码,由特殊符号分隔。然后我们使用一个线性层将其关系分类为五个类别 (四个预定义关系类型以及 ' 无关系 ')。尽管类别不平衡严重,我们的系统仍然在不需要特别工程特征的极简设置的情况下显著优于随机基线。