可解释性端到端语音翻译:通过操作序列生成进行校准,写入和重新排序
本文提出了一种新的交互式注意机制,使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行,实验表明,该模型在语音翻译和语音识别方面的性能表现均优于基线模型。
Dec, 2019
本文通过重新审视机器翻译中的 ST 和文本翻译任务技术,提出了一套训练 E2E ST 系统的最佳实践,其中包括参数化距离惩罚、模拟本地化技术等。实验表明,在不使用转录文本和预训练的情况下,该系统可以达到并甚至超过之前使用预训练方法的研究水平,对于极低资源环境依然有差距。此外,我们还首次证明了神经声学特征建模的可行性,并在 ST 任务中取得了令人鼓舞的效果。
Jun, 2022
提出实现可解释的神经机器翻译(NMT)的方法,具体包括改变输出表示方式,提出新的 NMT 方案以通过源句子步进式走向生成目标句子,通过设定目标句子标记和移动目标端写入头来模拟单词重排序。与许多现代神经模型相比,我们的系统发出明确的单词对齐信息,可以提高可解释性。与最近的变压器架构在日英和葡英上相比,我们的技术可以在 BLEU 得分方面优于普通文本系统,并且在西班牙 - 英语上的 BLEU 得分相差不到 0.5。
Aug, 2018
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成,其平均 ASR 延迟为 1 秒,ST 延迟为 1.3 秒,在多语言情况下优化了输出质量表现。
Jul, 2023
本文介绍了如何使用端到端模型进行语音翻译,并在流式翻译设置中实现同时生成音频转录和翻译输出,并比较了与标准级联方法的表现,结果表明这种方法与级联模型的表现相似,但参数数量更少。
Jan, 2021
本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译 (ST) 模型的性能,通过从文本翻译模型中转移知识来训练 ST 模型。在英法增广 LibriSpeech 和英汉 TED 语料库上的实验结果表明,使用该方法可以对相似和不相似的语言对进行端到端 ST 实现,并且在老师模型的指导下,端到端 ST 模型可以取得 3.5 个 BLEU 分数的显着提升。
Apr, 2019