Nov, 2022

TorchScale:大规模应用的Transformers

TL;DR本论文介绍了TorchScale工具库,它通过采用多种建模技术来提高建模的能力、训练的稳定性和效率,进而成功应用于语言建模和神经机器翻译的实验,并可有效扩大Transformers的规模。