ICMLJun, 2022

从零开始重新审视端到端的语音到文本翻译

TL;DR本文通过重新审视机器翻译中的 ST 和文本翻译任务技术,提出了一套训练 E2E ST 系统的最佳实践,其中包括参数化距离惩罚、模拟本地化技术等。实验表明,在不使用转录文本和预训练的情况下,该系统可以达到并甚至超过之前使用预训练方法的研究水平,对于极低资源环境依然有差距。此外,我们还首次证明了神经声学特征建模的可行性,并在 ST 任务中取得了令人鼓舞的效果。