对付时间与内存受限 GPU 服务下的长文本分类的简单转换器技巧

Mar, 2024

对付时间与内存受限 GPU 服务下的长文本分类的简单转换器技巧

Simple Hack for Transformers against Heavy Long-Text Classification on a Time- and Memory-Limited GPU Service

Mirza Alim Mutasodirin, Radityo Eko Prasojo, Achmad F. Abka, Hanif Rasyidi

TL;DR使用 18k 新闻文章，我们研究了基于 Tokenizer 输出长度推荐使用的预训练模型，并对缩短和丰富序列的一些技巧进行了比较。我们找到在使用较少的计算资源的情况下，去除停用词同时保留标点和低频词是最佳的技巧，并能够在保持相同信息的同时获得优越性能。这些研究结果可帮助开发者在有限的资源下高效地优化模型性能。

Abstract

Many nlp researchers rely on free computational services, such as Google Colab, to fine-tune their transformer models, causing a limitation for h

nlp transformer models hyperparameter optimization long-text classification pretrained models

发现论文，激发创造

使用预训练变形器处理长法律文件：修改 LegalBERT 和 Longformer

本研究探讨了两个方向来处理长篇的法律文本：一是修改从 LegalBERT 启动的 Longformer 以处理更长的文本，二是修改 LegalBERT 以使用 TF-IDF 表示。结果发现，第一个方法表现最佳，在 LexGLUE 中胜过 LegalBERT 的分层版本；第二个方法计算效率更高，而且仍然优于 TF-IDF 特征的线性 SVM。

Nov, 2022

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

BudgetLongformer：我们能否以低成本从头开始预训练 SotA 法律语言模型？

通过 Replaced Token Detection 任务提高训练信号量，我们训练了 Longformer 模型来展示使用更少的计算力可以预训练高效的语言模型，并在长文本摘要任务上取得了很好的性能。

Nov, 2022

Shortformer: 使用更短输入进行更好的语言建模

提出两种新方法，降低输入长度并在语言建模中实现困惑度和效率的提升。首先，我们研究了短输入的优点并发现通过训练模型的短子序列可以减少训练时间和提高困惑度。其次，我们提高了 transformers 的递归方法的效率，这是一种让模型在生成超过 transformer 一次可以处理的最大长度的序列时依赖于先前处理的令牌的方法。我们引入了一个简单的替代方法，通过将绝对位置嵌入到查询和键中而不是嵌入到单词中，可以在保持结果优越的情况下提高计算效率。将这些技术结合起来可以加速训练 1.65 倍，减少内存使用，并显著提高 WikiText-103 上的困惑度，而不会添加任何参数。

Dec, 2020

训练大模型，压缩小模型：重新思考 Transformers 的高效训练与推断模型大小

研究表明，即使较小的 Transformer 模型在每次迭代中执行更快，较宽且较深的模型在明显更少的步骤中收敛。此外，大型模型比小型模型更 robust，因此，高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性

Feb, 2020

Vcc: 通过优先考虑重要标记来将 Transformer 扩展到 128K 标记或更多

本文提出了一种基于 VIP-Token 的压缩方案，能够显著减少 Transformer 模型对 n 的复杂度依赖，大大提高了超长序列的处理效率，并在多个任务上表现出了优秀的性能和扩展性。

May, 2023

Transformer 模型的训练技巧

本文介绍了使用 Tensor2Tensor 框架和 Transformer 序列到序列模型进行神经机器翻译的实验。研究比较了影响最终翻译质量、内存使用、训练稳定性和时间的一些关键参数，并给出了一些实用建议，包括扩展到多个 GPU 的方法、对批处理大小、学习率、预热步数、最大句子长度和检查点平均值的改进建议。希望本文的观察对其他研究人员有所帮助。

Apr, 2018

关于低资源语言翻译的最优 Transformer 深度

本研究对 Transformer 模型在低资源语言翻译中的应用进行了探究，发现过度追求模型大小存在负面影响，需要注意调整超参数以提高性能。同时，本研究旨在挖掘更佳的模型性能，以推动 “Masakhane” 项目的发展。

Apr, 2020

使用 Transformer 模型对长文本进行建模的调查

本篇论文综述了最新的基于 Transformer 模型的长文本建模技术，其中介绍了长文本模型的定义、如何满足输入长度限制和改进 Transformer 的架构以有效扩展最大上下文长度，以及如何适应长文本的特殊特性。并且描述了长文本建模的四个典型应用，并探讨了未来的研究方向。

Feb, 2023

带有动态 Token 池化的高效 Transformer

通过动态 Pooling 和自回归机制，使得 Transformer 模型在其计算资源内的表现更快更准确。

Nov, 2022