TR-BERT：动态令牌减少以加速 BERT 推理

ACLMay, 2021

TR-BERT：动态令牌减少以加速 BERT 推理

TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference

Deming Ye, Yankai Lin, Yufei Huang, Maosong Sun

TL;DR本文提出一种动态适应层级的 Token 缩减方法 TR-BERT，该方法采用强化学习方法学习 Token 减少的选择策略以加速 BERT 模型在各种自然语言处理任务中的推理，并在实验中展示了 TR-BERT 在加速 BERT 模型的同时提高了其性能。

Abstract

Existing pre-trained language models (PLMs) are often computationally expensive in inference, making them impractical in various resource-limited real-world applications. To address this issue, we propose a dynamic token reduction approach to accelerate PLMs' inference, named TR-BERT,

pre-trained language models token reduction dynamic adaptation reinforcement learning nlp tasks

发现论文，激发创造

AdapLeR: 自适应长度缩减加速推理

本文提出了一种基于 salience 方法的计算成本降低技术，具体来说，是通过动态消除 BERT 模型中的无用 tokens 以降低计算成本，在几个不同的分类任务中验证其性能，实现了高达 22 倍的加速。

Mar, 2022

高效 BERT 预训练的 Token Dropping

提出了一种基于 token dropping 方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现，计算代价几乎为零。

Mar, 2022

DPBERT：基于动态规划的 BERT 高效推理

本研究提出了一种新的 fine-tuning 策略，使用动态规划来加速 BERT 的推理过程，并通过选择 transformer 层列表的子序列作为输入样本的计算路径，在保持 98% 准确率的同时，将延迟降低到 75%，相比最先进的输入自适应方法，取得了更好的准确率和速度的折中效果。

Jul, 2023

DeeBERT：加速 BERT 推理的动态早退出

DeeBERT 是一种简单而有效的方法，可以加速 BERT 的推理并降低推理时间。实验结果显示 DeeBERT 能够在保持模型质量的情况下，最多节省约 40％的推理时间，这为高效地应用基于 transformer-based 的深度模型提供了新思路。

Apr, 2020

SmartTrim：用于高效视觉语言模型的自适应令牌和参数剪枝

提出了一种智能修剪方法 SmartTrim，通过在模型中集成轻量级修剪模块，对冗余输入和参数进行任务特定修剪，不需要额外的预训练或数据增强，利用跨模态交互信息提供更重要的语义指导，以达到资源受限场景下更好的效率 - 性能平衡。

May, 2023

BTR: 用于高效检索的二进制标记表示增强语言模型

使用二进制标记表示，结合离线和运行时压缩，减少计算量和存储占用，在保持任务性能超过 95% 的同时，加速了最先进的推理速度达到 4 倍，并减少了 100 倍的存储空间。

Oct, 2023

TrimBERT: 为折衷而量身定制的 BERT 模型

本文介绍了一种方法：通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果，同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。

Feb, 2022

MicroBERT：低资源单语 BERT 的参数减少和多任务学习的有效训练

本研究探讨了两种技术，以在低资源设置中训练单语言 TLM，结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。

Dec, 2022

bert2BERT：面向可重用的预训练语言模型

本文提出了 bert2BERT，通过参数初始化有效地将现有较小的预训练模型（如 BRET_BASE）的知识转移到大型模型（如 BERT_LARGE），并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法，以此显着提高大型模型的预训练效率，这个方法被证明要比从头开始训练，StackBERT 和 MSLT 并使用不同类型的预训练模型的基线方法显着节省训练成本，特别是 bert2BERT 通过重复使用几乎是其一半大小的模型，将 BERT_BASE 和 GPT_BASE 的预训练计算成本节省约 45% 和 47%。

Oct, 2021

TinyBERT：自然语言理解的 BERT 蒸馏模型

通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架，可以有效地将大型 BERT 中的知识转移到小型 TinyBERT，从而在维持准确性的同时加速推理和减少模型大小，TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能，模型大小约为 BERT 的 1/8，推理速度约为 BERT 的 1/10。

Sep, 2019