层级 Transformer 用于长文档分类
本文研究使用分层传递学习方法进行长文本分类,通过将数据分成块,然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型,然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估,同时与多个深度学习算法进行比较,其中 Longformer 方法在大多数数据集上始终表现良好。
Jan, 2022
本研究展示了 BERT 如何在文本摘要中有用地应用,并提出了一种通用的框架,包括抽取式模型和生成式模型。在此框架下,我们引入了一种新的基于 BERT 的文档级编码器,该编码器能够表达文档的语义并获取其句子的表示,通过堆叠多个 Transformer 层来构建我们的抽取式模型,对于生成式摘要,我们提出一种新的微调策略,以解决编码器和解码器之间的不匹配问题,并演示了两阶段微调方法可以进一步提高生成摘要的质量。在三个数据集上的实验表明,我们的模型不仅在抽取式设置下,在生成式设置下也达到了最先进的水平。
Aug, 2019
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
提出一种称为 Hi-Transformer 的层次交互 Transformer 模型,通过学习每个句子的表示来获取全局文档信息,可以高效、有效地处理长文档建模问题。
Jun, 2021
本研究使用 BERT 进行文档分类,并展示出其在四个流行数据集上的最新成果。为了解决 BERT 推理的计算开销,研究者提出使用知识蒸馏技术,将 BERT 的知识转移到小型双向 LSTM 中,并使用 30 倍更少的参数达到了 BERT-base 相当的性能。该研究的主要贡献在于提高了基线水平,为未来的工作提供了基础。
Apr, 2019
本研究说明了一种基于层次 BERT 模型(HBM)的长文本分类方法,其可以在有限的标记实例数量下实现比现有技术更高的性能,并且可以被用来作为长文本解释的有用工具。
Jun, 2021
本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设,同时融合了任务特定的全局主题信息。实验表明,相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法,本方法在 AMI 基准语料库上的有效性和可行性得到了证实。
Apr, 2021
使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术,无需外部资源或特定数据增强。
Mar, 2022
本研究证明了一种简单可扩展的方法,使用已有的 Transformer 模型(如 BERT)处理长文本在 ICD 编码上的表现明显优于以往,比 CNN-based 模型更为出色。
Nov, 2022