May, 2022

修补 Charformer 中的漏洞,以实现高效的字符级生成

TL;DR本研究提出了一种解决 Charformer 在 Transformer 解码器中信息泄漏问题的方法,从而实现字符分组。研究发现 Charformer 的下采样在 NMT 中的翻译质量没有明显的优势,但训练速度可以提高 30%,在英––土耳其翻译中表现优异,表明字符级模型在形态丰富的语言中具有潜在的优势。