层级 Transformer 用于长文档分类

Oct, 2019

Hierarchical Transformers for Long Document Classification

Raghavendra Pappagari, Piotr Żelasko, Jesús Villalba, Yishay Carmiel, Najim Dehak

TL;DR该研究介绍了如何通过引入基于循环层或其他 Transformer 的单输出层对长文本进行 BERT 模型的微调，成功将其应用于客户电话满意度预测和话题分类任务中，并在两个任务中取得了显著的改进。

Abstract

bert, which stands for Bidirectional Encoder Representations from Transformers, is a recently introduced language representation model based upon the transfer learning paradigm. We extend its fine-tuning procedure

bert fine-tuning procedure recurrent layer transformer customer call satisfaction prediction

发现论文，激发创造

基于层级神经网络的长文档分类方法

本文研究使用分层传递学习方法进行长文本分类，通过将数据分成块，然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型，然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估，同时与多个深度学习算法进行比较，其中 Longformer 方法在大多数数据集上始终表现良好。

Jan, 2022

使用预训练编码器进行文本摘要

本研究展示了 BERT 如何在文本摘要中有用地应用，并提出了一种通用的框架，包括抽取式模型和生成式模型。在此框架下，我们引入了一种新的基于 BERT 的文档级编码器，该编码器能够表达文档的语义并获取其句子的表示，通过堆叠多个 Transformer 层来构建我们的抽取式模型，对于生成式摘要，我们提出一种新的微调策略，以解决编码器和解码器之间的不匹配问题，并演示了两阶段微调方法可以进一步提高生成摘要的质量。在三个数据集上的实验表明，我们的模型不仅在抽取式设置下，在生成式设置下也达到了最先进的水平。

Aug, 2019

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

Hi-Transformer: 高效、有效的长文档建模的分层交互式 Transformer

提出一种称为 Hi-Transformer 的层次交互 Transformer 模型，通过学习每个句子的表示来获取全局文档信息，可以高效、有效地处理长文档建模问题。

Jun, 2021

DocBERT：文件分类的 BERT 模型

本研究使用 BERT 进行文档分类，并展示出其在四个流行数据集上的最新成果。为了解决 BERT 推理的计算开销，研究者提出使用知识蒸馏技术，将 BERT 的知识转移到小型双向 LSTM 中，并使用 30 倍更少的参数达到了 BERT-base 相当的性能。该研究的主要贡献在于提高了基线水平，为未来的工作提供了基础。

Apr, 2019

如何为文本分类微调 BERT?

研究 BERT 语言模型在文本分类任务上的微调方法，提供一般的解决方案，并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。

May, 2019

一种基于句子级分层 BERT 模型的有限标记数据文档分类方法

本研究说明了一种基于层次 BERT 模型（HBM）的长文本分类方法，其可以在有限的标记实例数量下实现比现有技术更高的性能，并且可以被用来作为长文本解释的有用工具。

Jun, 2021

基于创新的 Bert 重新排序语言模型在语音识别中的应用

本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设，同时融合了任务特定的全局主题信息。实验表明，相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法，本方法在 AMI 基准语料库上的有效性和可行性得到了证实。

Apr, 2021

科学命名实体识别的分层 Transformer 模型

使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术，无需外部资源或特定数据增强。

Mar, 2022

BERT 面向长文档的案例研究：自动化 ICD 编码

本研究证明了一种简单可扩展的方法，使用已有的 Transformer 模型（如 BERT）处理长文本在 ICD 编码上的表现明显优于以往，比 CNN-based 模型更为出色。

Nov, 2022