语言模型预训练用于层次文档表示

Jan, 2019

语言模型预训练用于层次文档表示

Language Model Pre-training for Hierarchical Document Representations

Ming-Wei Chang, Kristina Toutanova, Kenton Lee, Jacob Devlin

TL;DR从无标注数据中预训练了一种能够包括来自整个文档的上下文信息的分层文档表示，包括定长的句子 / 段落表示，并应用于文档分割、文档级问答和抽取式文档摘要等方面取得了有效结果。

Abstract

hierarchical neural architectures are often used to capture long-distance dependencies and have been applied to many document-level tasks such as summarization, document segmentation, and sentiment analysis. Howe

hierarchical neural architectures language model pretraining document-level tasks pre-training algorithms contextual information

发现论文，激发创造

层次化神经语言模型：流文档及其内容的联合表示

采用嵌套的神经语言模型构建的分层框架可以同时学习文档和单词的分布式向量表示，该模型在数据流中取得了有效的结果，并可以通过添加用户层来学习个性化的偏好向量

Jun, 2016

基于层级神经网络的长文档分类方法

本文研究使用分层传递学习方法进行长文本分类，通过将数据分成块，然后传递到使用双向编码器表示的预训练通用句子编码器和 BERT 的基本模型，然后使每个块的输出表示通过包括 LSTMs 或 CNNs 的浅层神经网络来分类文本数据。使用此扩展方法对 6 个基准数据集进行评估，同时与多个深度学习算法进行比较，其中 Longformer 方法在大多数数据集上始终表现良好。

Jan, 2022

弱监督层次文本分类

本文提出了一种弱监督的神经方法进行层次文本分类，通过生成伪文档进行模型预训练，并在真实无标签数据上进行自我训练，最终得到高效准确的分类模型。

Dec, 2018

从字符到词语：分层预训练语言模型用于开放词汇语言理解

该研究引入了一种新颖的开放词汇语言模型，包含两个层次：词级和序列级，并通过对字符的表示以及全局的序列级别上下文调整，使模型直接处理字符序列，而不是子词或词级别的词汇表，取得了比强基准表现更好的效果，并且具有文本破坏和域移位的鲁棒性。

May, 2023

命名实体识别的分层上下文表示

本文提出了一种基于分层上下文表示的模型，通过句子级和文档级表示来提高实体识别模型中全局信息的利用，其中包括标签嵌入和注意机制以及键值内存网络，实验证明该模型在三个基准数据集上表现出优越的效果。

Nov, 2019

上下文预训练：超越文档边界的语言建模

大型语言模型通过 In-Context 预训练，在处理涉及相关文档的任务时，能够显著提高性能，包括复杂的语境推理、长文本推理、检索增强等。

Oct, 2023

用于连续句子分类的预训练语言模型

本文提出一种基于预训练语言模型 (BERT) 的方法，能够直接利用所有句子中的所有单词的上下文信息进行文档级理解的任务，且在四个数据集中取得了最先进的结果。

Sep, 2019

HiPool：基于图神经网络对长文档建模

本文提出基于图网络的方法来处理长序列的自然语言处理问题，在新的基准测试中，该方法在长序列数据集中表现出比序列模型更好的性能和可扩展性。

May, 2023

多语言分层注意力网络用于文档分类

通过跨语言多任务学习和对其它语言的共享编码器和 / 或共享注意机制，建立多语言分层注意网络，以学习文档结构，并在多语言分类问题上取得比单语言模型更好的结果和更高的计算效率。

Jul, 2017

多文档摘要的分层 Transformer

本文提出了一种神经网络归纳模型，能够有效地处理多个输入文档，并利用 Transformers 架构对文档进行层次编码，通过注意力机制来表示跨文档之间的关系，并学习文本单元之间的潜在依赖关系，在 Wikisum 数据集上的实验证明，所提出的架构比数个强基线模型都有明显的改进。

May, 2019