AdapLeR: 自适应长度缩减加速推理

ACLMar, 2022

AdapLeR: Speeding up Inference by Adaptive Length Reduction

Ali Modarressi, Hosein Mohebbi, Mohammad Taher Pilehvar

TL;DR本文提出了一种基于 salience 方法的计算成本降低技术，具体来说，是通过动态消除 BERT 模型中的无用 tokens 以降低计算成本，在几个不同的分类任务中验证其性能，实现了高达 22 倍的加速。

Abstract

pre-trained language models have shown stellar performance in various downstream tasks. But, this usually comes at the cost of high latency and computation, hindering their usage in resource-limited settings. In this work, we propose a novel approach for reducing the computational cost

pre-trained language models computational cost reduction bert contribution predictor saliency method

发现论文，激发创造

TR-BERT：动态令牌减少以加速 BERT 推理

本文提出一种动态适应层级的 Token 缩减方法 TR-BERT，该方法采用强化学习方法学习 Token 减少的选择策略以加速 BERT 模型在各种自然语言处理任务中的推理，并在实验中展示了 TR-BERT 在加速 BERT 模型的同时提高了其性能。

May, 2021

DeeBERT：加速 BERT 推理的动态早退出

DeeBERT 是一种简单而有效的方法，可以加速 BERT 的推理并降低推理时间。实验结果显示 DeeBERT 能够在保持模型质量的情况下，最多节省约 40％的推理时间，这为高效地应用基于 transformer-based 的深度模型提供了新思路。

Apr, 2020

ALBERT: 自监督学习语言表示的轻量级 BERT

本文提出两种参数缩减技术，结合一个以自我监督方式处理句间连贯的损失函数，成功地使用更少的参数将 BERT 模型的性能扩展至其他基准测试集，包括 GLUE，RACE 和 SQuAD。

Sep, 2019

高效 BERT 预训练的 Token Dropping

提出了一种基于 token dropping 方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现，计算代价几乎为零。

Mar, 2022

语言理解用的可调节延迟的 Transformer 编码器

本文提出了一种可以自适应地调整推论计算成本的高效 Transformer 架构，包括 Attention Context Contribution（ACC）度量和新的策略，可用于 BERTbase 模型的微调，并且使得推论延迟提高了 4.8 倍，并且精度下降少于 0.75％。

Jan, 2022

NarrowBERT: 增强遮蔽语言模型的预训练和推理速度

本文介绍了一种修改的 transformer 编码器 --NarrowBERT，其通过使自注意力查询和前向层仅在预训练期间的屏蔽令牌上操作，从而增加了掩码语言模型预训练的吞吐量。此外，本文还显示，与 MNLI 等句子编码任务相比，NarrowBERT 在推理时间的吞吐量提高了多达 3.5 倍，性能降低最小（或没有），并且在 IMDB，亚马逊评论分类和 CoNLL NER 任务上的 NarrowBERT 表现也与标准 BERT 相当。

Jan, 2023

通过注意力值压缩输入长度和生成文本

本文研究了 BERT 的注意力机制，探究了两个问题：如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制，并发现 BERT 的早期层对文本分类任务的关注度更高，其注意力和可以用于过滤给定序列的令牌，一定程度上减少了输入长度同时保持良好的测试准确性。

Mar, 2023

长度自适应 Transformer: 一次训练，随时使用，避免长度限制和搜索

本论文中提出了一种名为 Length-Adaptive Transformer 的方法，通过使用结构变体 dropout（LengthDrop）在一个转换器上一次训练即可在各种推理场景下使用，并使用多目标进化搜索查找在任何给定计算预算下最大化准确性和最小化效率度量的长度配置。此外，还通过 Drop-and-Restore 过程将 PoWER-BERT 的适用范围显着扩展到单词级分类中。该方法在各种设置下都展现了卓越的准确性和效率平衡性能。

Oct, 2020

SwiftPruner: 针对高效广告相关性的强化进化剪枝

本文提出了 SwiftPruner，它是一个在线广告关键词预测的低延迟模型，采用结构剪枝的方法，利用演化搜索算法进行自动调整。通过多目标奖励来指导基因学习，优化层次稀疏模型的性能，该模型不仅在模拟测试中比其他模型具有更高的性能，而且在实际测试中更有效地降低了冷启动广告错误率。

Aug, 2022

通过早期退出加速用于序列标注的 BERT 推理

本文介绍了一个用于序列标记任务的提前退出机制，可以加速预训练模型的推断速度，同时通过基于窗口的判别标准以及自我采样微调等手段进一步降低了计算成本，并在三个常见序列标注任务上取得了较好的结果。

May, 2021