Dec, 2021

从文本中学习关键词的丰富表示

TL;DR本文研究如何训练针对文本文档中关键短语的任务特定语言模型,通过使用不同的掩码策略在区分性和生成性环境下对预训练变压器语言模型进行实验,并提出新的预训练目标 - 关键短语边界填充替换(KBIR),用于关键短语提取,与现有最佳方法相比,能够提高 8.16 个 F1 分数;此外,还提出了适用于 BART 的新的预训练设置 - KeyBART,能够在 CatSeq 格式中重现与输入文本相关的关键短语,用于关键短语生成,并能比现有最佳方法提高 4.33 个 F1M 分数。最后,对预训练语言模型进行细微调整,用于命名实体识别,问答,关系抽取,编写摘要等,达到了与现有最佳方法可比的性能,表明学习关键短语的丰富表达对于许多其他基础的自然语言处理任务是有益的。