Mar, 2022

BiBERT:准确的全二值化 BERT

TL;DR本文提出了一种全二值化 BERT(BiBERT)模型,通过有效的双向 attention 结构来最大化表示信息的统计信息,并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化,证明了比现有量化 BERT 性能更好,在计算资源有限的情况下可以显着节省 FLOPs(56.3 倍)和模型大小(31.2 倍)。