ESPnet-ST-v2: 多用途口语翻译工具包
ESPnet-ST 是一个新的项目,它是一个专门为在单一框架中快速开发语音到语音翻译系统而设计的,它集成或重新实现了自动语音识别、机器翻译和文本到语音功能。
Apr, 2020
本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力,结合多种技术如序列级知识蒸馏、Conformer 编码器等,同时使用模型组合达到了 31.4 BLEU 的最佳翻译性能。
Jul, 2021
该论文介绍了一种名为 ESPnet-TTS 的新型端到端文本到语音工具包,支持最先进的 E2E-TTS 模型,提供基于 Kaldi ASR 工具包的食谱,且提供预先训练好的模型和样例,因此用户可以将其用作基线,实现了与 ASR 功能的集成,如基于 ASR 的目标评估和半监督学习。
Oct, 2019
本研究介绍了一个名为 ESPnet2-TTS 的端到端文本转语音工具包,支持实时灵活预处理、神经语音编码器联合训练、先进的 TTS 模型及预训练模型。实验结果表明,该工具包生成的语音接近于真实语音,达到了顶尖水平。
Oct, 2021
本文介绍了将语音分离和增强(SSE)纳入 ESpnet 工具包的最新进展,包括最新的语音增强模型及其评估,并设计了新界面将语音增强应用于前端任务包括自动语音识别(ASR)、语音翻译(ST)和口语理解(SLU),实验表明其在多通道场景下是一种有前途的研究方向及可以用作未来研究的基准语料库。
Jul, 2022
本文介绍了一个名为 ESPnet 的新的开源语音处理平台,主要关注端到端自动语音识别 (ASR),采用了广泛使用的动态神经网络工具包 Chainer 和 PyTorch 作为主要深度学习引擎,同时遵循 Kaldi ASR 工具包的风格来完成数据处理,特征提取 / 格式以及食谱以提供完整的语音识别和其他语音处理实验的设置,解释了软件平台的主要架构、几个重要功能和与主要 ASR 基准的实验结果。
Mar, 2018
ESPnet-SE 是一个新的工具包,支持前端语音增强和分离的性能验证和自动语音识别的相关模型和系统的集成,它能够处理单声道和多声道数据,并提供数据预处理、特征提取、训练和评估流程的全套配方。
Nov, 2020
提出了一种基于 Cross Speech-Text(XSTNet)网络的用于语音翻译的端到端模型,采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略,并在 MuST-C En-X 和 LibriSpeech En-Fr 数据集上取得了最新的最佳效果,平均 BLEU 值为 28.8,优于之前的最佳方法 3.2 BLEU。
Apr, 2021
NeurST 是一个面向 NLP 研究人员的开源神经语音翻译工具包,主要侧重于端到端语音翻译,并提供特征提取、数据预处理、分布式训练和评估的逐步指南,旨在为该领域建立可靠的基准,并持续更新其性能。
Dec, 2020