长文档 Transformer 中的文档结构

ACLJan, 2024

Document Structure in Long Document Transformers

Jan Buchmann, Max Eichler, Jan-Micha Bodensohn, Ilia Kuznetsov, Iryna Gurevych

TL;DR长文档 Transformer 模型从预训练开始就能隐含地理解文档结构，并通过结构注入进一步提高旨在改善最终任务性能的能力。

Abstract

Long documents often exhibit structure with hierarchically organized elements of different functions, such as section headers and paragraphs. Despite the omnipresence of document structure, its role in natural language processing (NLP) remains opaque. Do →

long-document transformer models document structure structure-awareness structure infusion nlp modeling

发现论文，激发创造

语言模型预训练用于层次文档表示

从无标注数据中预训练了一种能够包括来自整个文档的上下文信息的分层文档表示，包括定长的句子 / 段落表示，并应用于文档分割、文档级问答和抽取式文档摘要等方面取得了有效结果。

Jan, 2019

针对预训练和微调语言模型的大规模语篇结构理解

本文针对预训练和微调语言模型中的语篇信息进行了深入分析，提出了一种新颖的推断语篇结构的方法，探讨了 BERT 和 BART 模型中内在语篇理解的精确性，同时评估了生成的结构与多种基准模型的相似性以及它们在模型内部和模型之间的分布。

Apr, 2022

使用 Transformer 模型对长文本进行建模的调查

本篇论文综述了最新的基于 Transformer 模型的长文本建模技术，其中介绍了长文本模型的定义、如何满足输入长度限制和改进 Transformer 的架构以有效扩展最大上下文长度，以及如何适应长文本的特殊特性。并且描述了长文本建模的四个典型应用，并探讨了未来的研究方向。

Feb, 2023

驻足于起始处：语言模型如何嵌入长篇文档以进行稠密检索

这项研究调查了 Transformer-based 模型在文本表征学习中的位置偏差存在情况，特别是在网络文档检索的背景下。我们基于先前研究的基础上，拓展了关于因果性语言模型输入序列中信息丢失的问题，将其应用于表征学习领域。我们在编码器 - 解码器模型的各个训练阶段，包括语言模型预训练、对比度预训练和对比度微调中，研究了位置偏差。通过对 MS-MARCO 文档集的实验发现，在对比度预训练之后，该模型已经生成了能够更好地捕捉输入早期内容的嵌入向量，而微调进一步加剧了这种效果。

Apr, 2024

Transformer 语言模型的结构指导

本论文研究了在不需要大量预训练的情况下，以结构为导向的指导是否能够使 Transformer 语言模型学习更接近人类的系统语言泛化。通过在 BLLIP 数据集上对两种新模型进行实验，研究者发现引入结构性解析的辅助训练能够提高 Transformer 语言模型在句法推理上的泛化能力。

Jul, 2021

DeepStruct: 为结构预测预训练语言模型

介绍了一种提高语言模型结构理解能力的方法，它通过预训练语言模型生成的结构来替代以往的基于任务数据的微调方式，并且在包含 28 个数据集的 10 个预测任务上实现了零样本迁移和超越了 21 个数据集的最新成果。

May, 2022

学习结构化文本表示

本文提出一种可以在没有语篇分析器或额外注释的情况下，从数据中学习具有结构感知能力的文档表示的模型，该模型通过将可微分非项目句法分析算法嵌入神经模型，使用注意机制来结合结构偏置，从而产生具有解释性和意义的中间结构，并在不同任务和数据集上实验验证表明，该模型在文档建模任务中取得了最先进的结果。

May, 2017

香草 Transformer 中的分层结构理解

本文研究了神经序列和转换语言模型的层次结构泛化能力，发现通过长时间训练，模型能够学习到层次结构的一般性，对模型深度的分析证明浅层和深层不如中等深度的模型性能优秀。此发现证实了香草珂朵莉模型能够发现和使用自然语言中的层次结构。

May, 2023

HiStruct+: 基于层次结构信息的提取式文本摘要优化

通过提出的 HiStruct+ 模型，将 Transformer-based language models 中的层级结构信息显式注入到提取式文摘模型中，提高了 PubMed 和 arXiv 数据集中提取式文摘的 ROUGEs 指标，实验发现：数据集对模型效果的影响是关键因素，数据集中的明显层级结构可以取得更大的性能提升，而在模型的表现中，层级位置信息的贡献最大。

Mar, 2022

利用 LLMs 深入挖掘长文档问答中的话语结构

通过利用文档中普遍存在的话语结构，我们提出了一套技术方法，创造出文档的简洁表示形式，从而更全面地理解和分析不同部分之间的关系。我们保留了最佳零射击方法性能的 99.6％，同时仅处理了最佳方法在信息查询证据检索设置中使用的总令牌数量的 26％。我们还展示了如何将我们的方法与 “自问” 推理代理结合起来，以实现复杂的多跳问题回答中的最佳零射击性能，仅比使用研究证据时的零射击性能少约 4％。

Nov, 2023