TangoBERT：使用级联架构以降低推理成本

Apr, 2022

TangoBERT：使用级联架构以降低推理成本

TangoBERT: Reducing Inference Cost by using Cascaded Architecture

Jonathan Mamou, Oren Pereg, Moshe Wasserblat, Roy Schwartz

TL;DRTangoBERT 是一种分层式的模型架构，能够通过在推理时间内降低计算负载来实现高速推断，并利用常规层级变压器模型的批量大小优化来增加相对推断成本的降低。

Abstract

The remarkable success of large transformer-based models such as BERT, RoBERTa and XLNet in many nlp tasks comes with a large increase in monetary and environmental cost due to their high computational load and energy consumption. In order to reduce this computational load in

tangobert cascaded model inference time nlp tasks speedup gains

发现论文，激发创造

CascadeBERT：通过校准完整模型级联加速预训练语言模型推断

本研究分析了动态提前退出的工作机制，并发现其在高速比下面临性能瓶颈。为了解决这个问题，提出了一个新的框架 CascadeBERT，可以在重要性和正确性方面提供综合的表示。经过实验证明，与现有的动态提前退出方法相比，CascadeBERT 在六个分类任务上的性能提升达到了 15％，可实现 4 倍加速。

Dec, 2020

BabyBear：针对昂贵语言模型的廉价推理分流

BabyBear 是一种自然语言处理的 CASCADING MODEL 框架，其中采用了 Inference Triage 策略，使得在分类等任务中，减少了计算成本，同时仍然可以达到较高精度。

May, 2022

级联变压器：用于高效答案句选择的应用

本文介绍了级联变压器模型的简单而有效技术，其中通过一系列排名器来修剪批处理中的一部分候选项，从而在推理时显着提高吞吐量，与现有模型相比，我们的方法在不影响准确性的情况下将计算量减少了 37％，并在两个英文问答数据集上进行了评估。

May, 2020

级联感知语言模型的训练

通过级联语言模型的优化训练方法，本研究提出了一种能够减少服务成本和延迟的解决方案，并在超过 60 个语言模型任务中展示了该方法的价值。

May, 2024

TwinBERT: 双向结构 BERT 模型的知识蒸馏以实现高效检索

TwinBERT 模型可用于低延时 IR 系统中进行有效且高效的召回，通过将查询和文档的嵌入交叉组合来生成相似性分数，并且可以预先计算文档嵌入并将其缓存在内存中，从而显着提高了处理效率。

Feb, 2020

通过自信自适应变压器实现一致加速推断

本文提出了 CATs -- Confident Adaptive Transformers 方法，在保证高可信度的情况下增加计算效率，并且训练了额外的预测模型来实现模型的动态决策。此方法的有效性在四个分类和回归任务中得到了证明。

Apr, 2021

TinyBERT：自然语言理解的 BERT 蒸馏模型

通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架，可以有效地将大型 BERT 中的知识转移到小型 TinyBERT，从而在维持准确性的同时加速推理和减少模型大小，TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能，模型大小约为 BERT 的 1/8，推理速度约为 BERT 的 1/10。

Sep, 2019

模型级联：提高 NLP 系统的效率和准确性

本研究旨在探讨利用容量不同的模型集合进行级联的 Model Cascading 技术，能够提高 NLP 系统的计算效率和预测准确性，并且引入更多模型可进一步提高效率。

Oct, 2022

快速答案：在张量流处理器上加速 BERT

本研究中，我们通过将所有的非线性组件与矩阵乘法组件谨慎地融合起来，在张量流处理器上加速了 BERT 模型的推断，实现了一批量 - 1 推断的 130 微秒确定性尾延迟，比当前最先进的方法快 6 倍。

Jun, 2022

级联深度分类器的高效摊销推理

该论文提出了一种使用深度神经网络级联和选择模块的新框架，通过同时优化预测准确性和能耗，实现了在测试时间的有效成本 - 准确性权衡，验证了该方法在图像分类任务中优于标准训练的 ResNets，对 CIFAR-10/100 数据集的 FLOPs 成本需求不到 20% 和 50%，在 ImageNet 数据集上只需求 66%。

Oct, 2017