Feb, 2025

汉明注意力蒸馏:键值和查询的二值化以提高长上下文变换器的效率

TL;DR本研究解决了预训练变换器模型在扩展上下文窗口时高计算和内存开销的问题。提出的汉明注意力蒸馏方法通过将键和值二值化并用高效的汉明距离计算替代点积操作,从而实现了显著的效率提升。研究结果显示,该方法在多个任务上具有优越的准确性,且显著降低了长上下文推断的计算成本。