- ESPnet-ST IWSLT 2021 离线语音翻译系统
本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力,结合多种技术如序列级知识蒸馏、Conformer 编码器等,同时使用模型组合达到了 31.4 BLEU 的最佳 - ACL级联式翻译 vs 直接式翻译:这些差异是否仍然有所不同?
本研究通过对自然语言翻译中的直接方法与传统叠加方法的比较,系统地展示了两种范式之间的性能差距已经消失,它们的行为差异也被证明不足以让人区分或偏好其中的一种。
- 2021 年 IWSLT 的 Volctrans 神经语音翻译系统
该论文介绍了 Volctrans 团队在 IWSLT 2021 中提交的系统,包括离线语音翻译和文本 - 文本同时翻译。他们采用端到端模型进行离线语音翻译,在 MuST-C 测试集上比基准结果提高了 8.1 BLEU 分值,并接近强级联解决 - ACL堆叠声学 - 文本编码:将预训练模型整合进语音翻译编码器
本文提出了一种堆叠声音和文本编码方法(SATE),以改进现有的自动语音识别和机器翻译编码器不足,使其更适合于末端到末端的语音翻译任务。实验结果表明,我们的方法在 LibriSpeech En-Fr 和 MuST-C En-De ST 任务上 - ACL语音到文本转换的共享语义空间学习
该论文提出了一种名为 Chimera 的方法,该方法通过投影音频和文本特征到一个共同的语义表示来统一文本翻译和语音翻译任务,从而提高了 MuST-C 和 Augmented Librispeech 的 ST 基准性能至新的最先进水平。
- ACL可搜索的隐藏中介于可分解序列任务的端对端模型
我们提出了一个利用分解子任务进行可搜索的中间隐层表示学习的端到端框架,在语音翻译等复杂序列任务上实现了优越的性能。
- 跨模态渐进训练的端到端语音翻译
提出了一种基于 Cross Speech-Text(XSTNet)网络的用于语音翻译的端到端模型,采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略,并在 MuST-C En-X 和 LibriSpeech En-Fr - 语音翻译的大规模自监督和半监督学习
通过利用大量未标记的语音和文本数据(包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模)的预训练和自我训练,我们的实验结果表明,在不利用监督学习数据的前提下,通过 wav2vec 2.0 预训练、自我训练和配合 - 端到端同时语音翻译解码策略的实证研究
本文提出了一种针对端到端同时语音翻译的解码策略,利用线下训练的端到端模型,并对两种语言对进行了实证研究,探讨了不同的输出令牌粒度以及在不同延迟情况下控制 BLEU/Average Lagging 平衡的方法,效果良好。
- 融合声音和文本编码的多模式双语预训练和语音翻译
提出了一个 Fused Acoustic and Text Masked Language Model (FAT-MLM), 它通过多种类型的语料库(包括用于语音识别和机器翻译的并行数据、纯语音和文本数据)联合学习了一个统一的音频和文本输入 - 用于语音识别和翻译的多语种 TEDx 语料库
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外 - ACL基于 CTC 的直接语音翻译压缩
本研究提出了一种基于 CTC 的动态音频信号压缩方法来改善语音翻译质量,显著提高了 BLEU 评估指标并减少了内存占用。
- ACL联合语音识别和翻译的流式模型
本文介绍了如何使用端到端模型进行语音翻译,并在流式翻译设置中实现同时生成音频转录和翻译输出,并比较了与标准级联方法的表现,结果表明这种方法与级联模型的表现相似,但参数数量更少。
- 从 SimulMT 到 SimulST: 将同时翻译文本转换为端到端同时翻译语音
本文调查了如何将同步文本翻译方法与同时语音翻译相结合,并通过引入预决定模块来适应于端到端的同时语音翻译。同时,对将固定和灵活的预决策与固定和灵活的策略相结合的延迟质量权衡进行了详细分析。作者还设计了一种新的计算感知的延迟度量方法,该方法从平 - 评估语音翻译中的性别偏差
本篇研究提出 WinoST 挑战集,用于针对性别偏见进行演讲翻译的评估,并使用最先进的端到端演讲翻译系统在四个语言对上进行了性别准确性评估。
- 利用文本数据增强语音转文本任务的通用多任务学习框架
本文提出了一种多任务学习框架,利用文本数据来提高自动语音识别和语音翻译的性能,其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中,该方法相对于基线线下降了 10~15% 的词错误率,在 MuST-C 任 - ACL语音的一致转录和翻译
本研究探索了一种同时实现语音转写和翻译的方法,并比较了传统串联式方法和端到端模型的表现。研究发现,直接模型不适用于这一任务,但采用耦合推理过程的端到端模型能够实现强一致性。此外,研究还引入了直接优化一致性的简单技术,并分析了一致性、转写准确 - CoVoST 2 和大规模多语音言语音到文本翻译
发布 CoVoST 2 语料库,其中包括来自 21 种语言翻译成英语和从英语翻译成 15 种语言的大规模多语言语音翻译语料库,此数据集是目前总量最大、语言覆盖面最广的公开数据集,同时提供 extensive 的语音识别、双语和多语言机器翻译 - UWSpeech:未书写语言的语音翻译
本文中,我们提出了一种名为 UWSpeech 的翻译系统,它将目标未书写语言转换为离散标记,然后用转换器将源语言语音转换为目标离散标记,最后使用倒置器从目标离散标记中合成目标语音。我们提出了一种名为 XL-VAE 的方法,用于共同训练 UW - ACL性别危险?在 MuST-SHE 语料库上评估语音翻译技术
研究了语音翻译中存在的性别偏见问题,并基于英意 / 英法语言方向比较了级联与端到端技术,着重于探究如何利用音频信息来解决自然语言中的性别偏见问题。