May, 2022

简单递归改善遮蔽语言模型

TL;DR本文研究在Transformer架构中引入循环模块是否可以提高性能,实验结果表明,引入循环模块可以提高Transformer模型的稳定性和性能,而不需要使用低层次的性能优化方法,并且参数数量保持不变。