May, 2024

二进制和三进制变压器的机理解释性

TL;DR研究表明,将二进制和三进制变压器网络应用于大型语言模型能够显著减少内存并提高推理速度,并且研究结果显示,这些网络在学习模块化加法时与全精度变压器网络学习的算法相似,因此无法作为语言模型中更可解释的替代方案。