ESPnet-ST-v2: 多用途口语翻译工具包

Apr, 2023

ESPnet-ST-v2: 多用途口语翻译工具包

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit

Brian Yan, Jiatong Shi, Yun Tang, Hirofumi Inaguma, Yifan Peng...

TL;DRESPnet-ST-v2 是一个开源工具包，它支持离线语音到文本翻译、同声传译以及离线语音到语音翻译等多种任务，提供了包括转录器、混合 CTC/attention、多解码器、时间同步分块 CTC/attention、Translatotron 模型和直接离散单元模型等最先进的架构。

Abstract

espnet-st-v2 is a revamp of the open-source ESPnet-ST toolkit necessitated by the broadening interests of the spoken language translation community. →

espnet-st-v2 spoken language translation offline speech-to-text translation simultaneous speech-to-text translation offline speech-to-speech translation

发现论文，激发创造

ESPnet-ST: 全球语音翻译工具箱

ESPnet-ST 是一个新的项目，它是一个专门为在单一框架中快速开发语音到语音翻译系统而设计的，它集成或重新实现了自动语音识别、机器翻译和文本到语音功能。

Apr, 2020

ESPnet-ST IWSLT 2021 离线语音翻译系统

本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力，结合多种技术如序列级知识蒸馏、Conformer 编码器等，同时使用模型组合达到了 31.4 BLEU 的最佳翻译性能。

Jul, 2021

ESPnet-TTS: 统一、可重现、可集成的开源端到端语音合成工具包

该论文介绍了一种名为 ESPnet-TTS 的新型端到端文本到语音工具包，支持最先进的 E2E-TTS 模型，提供基于 Kaldi ASR 工具包的食谱，且提供预先训练好的模型和样例，因此用户可以将其用作基线，实现了与 ASR 功能的集成，如基于 ASR 的目标评估和半监督学习。

Oct, 2019

ESPnet2-TTS: TTS 研究的扩展边界

本研究介绍了一个名为 ESPnet2-TTS 的端到端文本转语音工具包，支持实时灵活预处理、神经语音编码器联合训练、先进的 TTS 模型及预训练模型。实验结果表明，该工具包生成的语音接近于真实语音，达到了顶尖水平。

Oct, 2021

ESPnet-SE++：面向鲁棒语音识别、翻译和理解的语音增强

本文介绍了将语音分离和增强（SSE）纳入 ESpnet 工具包的最新进展，包括最新的语音增强模型及其评估，并设计了新界面将语音增强应用于前端任务包括自动语音识别（ASR）、语音翻译（ST）和口语理解（SLU），实验表明其在多通道场景下是一种有前途的研究方向及可以用作未来研究的基准语料库。

Jul, 2022

ESPnet: 端到端语音处理工具包

本文介绍了一个名为 ESPnet 的新的开源语音处理平台，主要关注端到端自动语音识别 (ASR)，采用了广泛使用的动态神经网络工具包 Chainer 和 PyTorch 作为主要深度学习引擎，同时遵循 Kaldi ASR 工具包的风格来完成数据处理，特征提取 / 格式以及食谱以提供完整的语音识别和其他语音处理实验的设置，解释了软件平台的主要架构、几个重要功能和与主要 ASR 基准的实验结果。

Mar, 2018

ESPnet-se: 面向 ASR 集成的端到端语音增强和分离工具包

ESPnet-SE 是一个新的工具包，支持前端语音增强和分离的性能验证和自动语音识别的相关模型和系统的集成，它能够处理单声道和多声道数据，并提供数据预处理、特征提取、训练和评估流程的全套配方。

Nov, 2020

跨模态渐进训练的端到端语音翻译

提出了一种基于 Cross Speech-Text（XSTNet）网络的用于语音翻译的端到端模型，采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略，并在 MuST-C En-X 和 LibriSpeech En-Fr 数据集上取得了最新的最佳效果，平均 BLEU 值为 28.8，优于之前的最佳方法 3.2 BLEU。

Apr, 2021

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

NeurST：神经语音翻译工具包

NeurST 是一个面向 NLP 研究人员的开源神经语音翻译工具包，主要侧重于端到端语音翻译，并提供特征提取、数据预处理、分布式训练和评估的逐步指南，旨在为该领域建立可靠的基准，并持续更新其性能。

Dec, 2020