ACLMay, 2019

HIBERT:基于分层双向 Transformer 的文档级预训练技术用于文档摘要

TL;DR本文提出了一种名为 Hibert 的预训练模型,并将其应用于神经抽取性摘要模型中,通过使用该模型获得了 CNBC / Dailymail 数据集 1.25 ROUGE 和 New York Times 的 2.0 ROUGE, 相比于随机初始化的对应组件,性能更具优势,实现了这两个数据集的最新性能。