ACLMay, 2022

Multiformer:基于可配置头部的 Transformer 模型的直接语音翻译

TL;DR本文提出了一种基于 Transformer 的新模型 Multiformer,它可以根据任务需要在不同的头上应用不同的注意力机制,从而有力地解决了长序列和相邻 token 冗余等问题。同时,我们发现各头权重分布均匀的模型可以取得更好的效果。