ACLMay, 2022
Multiformer:基于可配置头部的 Transformer 模型的直接语音翻译
Multiformer: A Head-Configurable Transformer-Based Model for Direct Speech Translation
Gerard Sant, Gerard I. Gállego, Belen Alastruey, Marta R. Costa-Jussà
TL;DR本文提出了一种基于 Transformer 的新模型 Multiformer,它可以根据任务需要在不同的头上应用不同的注意力机制,从而有力地解决了长序列和相邻 token 冗余等问题。同时,我们发现各头权重分布均匀的模型可以取得更好的效果。