使用 Transformer 模型对长文本进行建模的调查

Feb, 2023

使用 Transformer 模型对长文本进行建模的调查

A Survey on Long Text Modeling with Transformers

Zican Dong, Tianyi Tang, Lunyi Li, Wayne Xin Zhao

TL;DR本篇论文综述了最新的基于 Transformer 模型的长文本建模技术，其中介绍了长文本模型的定义、如何满足输入长度限制和改进 Transformer 的架构以有效扩展最大上下文长度，以及如何适应长文本的特殊特性。并且描述了长文本建模的四个典型应用，并探讨了未来的研究方向。

Abstract

Modeling long texts has been an essential technique in the field of natural language processing (NLP). With the ever-growing number of long documents, it is important to develop effective modeling methods that can process and analyze such texts. However, long texts pose important research challenges for existing text models, with more →

long texts modeling natural language processing transformer models complex semantics special characteristics

发现论文，激发创造

模型融合是否有助于长文档分类的 Transformer？实证研究

通过比较模型融合与 BERT 和 Longformer 架构的结果，研究探讨了在长文档分类中采用模型融合的方法。

Jul, 2023

在长上下文大语言模型中推进 Transformer 架构的综合调查

该研究论文主要针对基于 Transformer 的大型语言模型的长上下文能力进行了模型架构的改进，并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。

Nov, 2023

使用 Transformer 高效分类长文档

本文提供了一个广泛的长文本分类的基准测试方法，包括二分类、多分类、多标签分类任务，研究发现更复杂的模型并不总是优于简单的基准模型，并且在不同数据集上表现不稳定，因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。

Mar, 2022

大型语言模型的概念与实施调查

基于 Transformer 架构的大型语言模型（LLMs）的近期进展在自然语言处理（NLP）应用领域展示了显著的拓宽范围，超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用，重点关注 GPT 系列，对人工智能（AI）驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究，同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展，Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究，突出了其多功能性和在实际应用领域中转型的潜力，从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。

Mar, 2024

长文本神经自然语言处理技术现状综述

本文综述了深度神经网络在自然语言处理中的应用，重点关注长文本处理的挑战和解决方案，包括文档分类、摘要生成和情感分析等任务，同时列举了当前用于研究的公开数据集。

May, 2023

重新审视基于 Transformer 的长文档分类模型

本研究使用稀疏注意力机制和分层变换器方法，对基于 Transformers 的长文本分类进行比较，探讨了四个文本分类数据集，并得出了实际应用此方法的实用建议。

Apr, 2022

基于 Transformer 的长文档匹配模型：挑战与实证分析

研究长文档匹配的最新进展集中在使用基于 transformer 的模型进行长文档编码和匹配，本文实证演示了相对于 transformer-based 模型，使用简单的神经模型（如前馈网络和 CNN）和简单的嵌入（如 GloVe 和 Paragraph Vector）在文档匹配任务中的更高效性。

Feb, 2023

调整预训练的文本 - 文本模型以适应长文本序列

本文介绍了一项关于预训练模型适应长序列输入的经验研究，并提出一种构建长上下文模型的有效方法，包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终，研究人员成功构建出具有竞争性的长文本问答模型，并在五个长文本摘要数据集上取得了新的性能最高记录。

Sep, 2022

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021