Jun, 2022

快速答案:在张量流处理器上加速 BERT

TL;DR本研究中,我们通过将所有的非线性组件与矩阵乘法组件谨慎地融合起来,在张量流处理器上加速了 BERT 模型的推断,实现了一批量 - 1 推断的 130 微秒确定性尾延迟,比当前最先进的方法快 6 倍。