Oct, 2023

ResidualTransformer:采用权重共享的残差低秩学习的 Transformer 层

TL;DR通过重新参数化模型权重,将 Transformer 编码器层中的模型权重缩小,可以降低模型大小,减轻设备内存的压力,并在语音处理任务上取得了显著的性能改进。