Sep, 2020

深度变换器与潜在深度

TL;DR本研究提出一种概率框架来自动学习选择哪些层来使用以优化Transformer模型的性能,用于训练一种适用于多语言机器翻译的共享Transformer网络,缓解梯度消失问题,从而使得深度Transformer网络(例如100层)稳定训练,并在机器翻译和语言建模任务中实现了更好的性能。