基于分块的自注意力机制实现长文本理解

EMNLPNov, 2019

基于分块的自注意力机制实现长文本理解

Blockwise Self-Attention for Long Document Understanding

Jiezhong Qiu, Hao Ma, Omer Levy, Scott Wen-tau Yih, Sinong Wang...

TL;DRBlockBERT 为一个高效的 BERT 模型，引入了稀疏块结构，以更好的建模长距离依赖关系，在语言模型预训练和基准问答数据集上进行了实验。与 RoBERTa 模型相比，BlockBERT 可以节省大约 27.8% 的推理时间，并具有可比甚至更好的预测准确性。

Abstract

We present blockbert, a lightweight and efficient bert model for better modeling long-distance dependencies. Our model extends BERT by int

blockbert bert model long-distance dependencies sparse block structures attention heads

发现论文，激发创造

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

May, 2023

使用基于跨度的动态卷积来改进 BERT 的 ConvBERT

本文提出一种用于自然语言理解中的深度神经网络模型 ConvBERT，用于替换 BERT 中占用计算和存储的全局自我注意力块，以实现更高效的全局和局部语境学习，经实验证明，在各种下游任务中，ConvBERT 均能显著优于 BERT 及其变体，且训练成本更低。

Aug, 2020

SDBERT: SparseDistilBERT，一个更快、更小的 BERT 模型

本文介绍了一种新的 Transformer 架构 - SparseDistilBERT，使用了稀疏注意力机制和知识蒸馏技术 (KD)。将稀疏注意力机制与 KD 技术相结合可以降低模型的复杂度，本文实现的 SparseDistilBERT 在保留 97% 性能的前提下只使用了原 BERT 模型大小的 40% 且训练时间缩短了 40%。

Jul, 2022

块级 Transformer：全局到局部的语言建模以提高快速推理能力

通过采用分层的全局到局部建模的方法，本研究提出了块变压器架构，以缓解自注意力所带来的推理瓶颈。通过在较低层应用快速局部建模和在较高层应用全局建模，以减轻与全局上下文相关的计算代价，并通过聚合输入令牌来降低较低层的计算代价，在没有全局注意力瓶颈的情况下，较高层可以充分利用计算硬件以最大化推理吞吐量，并优化了语言模型推理过程。

Jun, 2024

对长文本进行的本地自注意力机制以提高文档检索效率

本文提出了一种局部自注意力机制，用于解决检索过程中考虑前 n 个单词导致系统检索长文档时出现偏差的问题，并在 TREC 2019 深度学习排行榜任务上取得了显著的检索质量提升。

May, 2020

DocBERT：文件分类的 BERT 模型

本研究使用 BERT 进行文档分类，并展示出其在四个流行数据集上的最新成果。为了解决 BERT 推理的计算开销，研究者提出使用知识蒸馏技术，将 BERT 的知识转移到小型双向 LSTM 中，并使用 30 倍更少的参数达到了 BERT-base 相当的性能。该研究的主要贡献在于提高了基线水平，为未来的工作提供了基础。

Apr, 2019

不同位置感知机制理解长文档

本篇论文提出了一种新型基于 transformer 的 1D 和 2D 位置感知注意力机制，实验结果表明，该模型在进行长篇文档理解时具有优势，易于基于其他基于 transformer 的架构进行扩展。

Aug, 2022

基于变形金刚 (Block-wise) 的模型比特压缩

该研究提出了一种名为 BBCT 的方法，用于对 Transformer-based models 进行块状位压缩，以减少其对计算的需求和内存的占用。经过在 BERT 上的测试，BBCT 可以在保持精度的前提下显著减少模型的计算和内存占用。

Mar, 2023

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

TopicBERT 用于能效文档分类

采用一个名为 TopicBERT 的统一框架，通过同时学习主题模型和语言模型的方式，大大减少了自注意力操作的数量，从而优化了文档分类的微调计算成本，实现了 1.4x（约 40%）的加速和约 40% 的 $CO_2$ 排放量的减少，同时保持了 5 个数据集 99.9% 的性能。

Oct, 2020