Jul, 2024

探索量化技术以提高Transformer语言模型的高效预训练

TL;DR本研究旨在探索Quantization对Transformer模型进行高效的预训练的影响,重点关注线性层组件。通过系统地应用直接的线性量化方法于权重、激活值、梯度和优化器状态,我们评估其对模型的效率、稳定性和训练性能的影响。通过提供一套有效的Quantization策略,用于Transformer的预训练,我们旨在在保留语言模型能力的同时促进高效的从头开始的训练。