TangoBERT:使用级联架构以降低推理成本
本研究分析了动态提前退出的工作机制,并发现其在高速比下面临性能瓶颈。为了解决这个问题,提出了一个新的框架 CascadeBERT,可以在重要性和正确性方面提供综合的表示。 经过实验证明,与现有的动态提前退出方法相比,CascadeBERT 在六个分类任务上的性能提升达到了 15%,可实现 4 倍加速。
Dec, 2020
BabyBear 是一种自然语言处理的 CASCADING MODEL 框架,其中采用了 Inference Triage 策略,使得在分类等任务中,减少了计算成本,同时仍然可以达到较高精度。
May, 2022
本文介绍了级联变压器模型的简单而有效技术,其中通过一系列排名器来修剪批处理中的一部分候选项,从而在推理时显着提高吞吐量,与现有模型相比,我们的方法在不影响准确性的情况下将计算量减少了 37%,并在两个英文问答数据集上进行了评估。
May, 2020
TwinBERT 模型可用于低延时 IR 系统中进行有效且高效的召回,通过将查询和文档的嵌入交叉组合来生成相似性分数,并且可以预先计算文档嵌入并将其缓存在内存中,从而显着提高了处理效率。
Feb, 2020
本文提出了 CATs -- Confident Adaptive Transformers 方法,在保证高可信度的情况下增加计算效率,并且训练了额外的预测模型来实现模型的动态决策。此方法的有效性在四个分类和回归任务中得到了证明。
Apr, 2021
通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架,可以有效地将大型 BERT 中的知识转移到小型 TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能,模型大小约为 BERT 的 1/8,推理速度约为 BERT 的 1/10。
Sep, 2019
本研究旨在探讨利用容量不同的模型集合进行级联的 Model Cascading 技术,能够提高 NLP 系统的计算效率和预测准确性,并且引入更多模型可进一步提高效率。
Oct, 2022
本研究中,我们通过将所有的非线性组件与矩阵乘法组件谨慎地融合起来,在张量流处理器上加速了 BERT 模型的推断,实现了一批量 - 1 推断的 130 微秒确定性尾延迟,比当前最先进的方法快 6 倍。
Jun, 2022
该论文提出了一种使用深度神经网络级联和选择模块的新框架,通过同时优化预测准确性和能耗,实现了在测试时间的有效成本 - 准确性权衡,验证了该方法在图像分类任务中优于标准训练的 ResNets,对 CIFAR-10/100 数据集的 FLOPs 成本需求不到 20% 和 50%,在 ImageNet 数据集上只需求 66%。
Oct, 2017