Jul, 2019

利用上下文词嵌入改进专利化学命名实体识别

TL;DR本文探讨了 BiLSTM-CRF 模型在利用预训练的词嵌入、字符级和上下文化 ELMo 词表示在化学专利中的命名实体识别性能,并比较了医学和化学专利语料库上预训练的词嵌入对化学专利的影响。结果表明,使用基于 ELMo 的上下文词表示法可以大幅度提高在化学命名实体识别方面的表现。我们还表明,针对化学领域的资源(如在化学专利上训练的词嵌入和特定于化学的标记器)对 NER 性能有积极影响。