ESPnet-se: 面向 ASR 集成的端到端语音增强和分离工具包

Nov, 2020

ESPnet-se: 面向 ASR 集成的端到端语音增强和分离工具包

ESPnet-se: end-to-end speech enhancement and separation toolkit designed for asr integration

Chenda Li, Jing Shi, Wangyou Zhang, Aswin Shanmugam Subramanian, Xuankai Chang...

TL;DRESPnet-SE 是一个新的工具包，支持前端语音增强和分离的性能验证和自动语音识别的相关模型和系统的集成，它能够处理单声道和多声道数据，并提供数据预处理、特征提取、训练和评估流程的全套配方。

Abstract

We present espnet-se, which is designed for the quick development of speech enhancement and speech separation systems in a single framework, along with the optional downstream →

espnet-se speech enhancement speech separation speech recognition data pre-processing

发现论文，激发创造

ESPnet-SE++：面向鲁棒语音识别、翻译和理解的语音增强

本文介绍了将语音分离和增强（SSE）纳入 ESpnet 工具包的最新进展，包括最新的语音增强模型及其评估，并设计了新界面将语音增强应用于前端任务包括自动语音识别（ASR）、语音翻译（ST）和口语理解（SLU），实验表明其在多通道场景下是一种有前途的研究方向及可以用作未来研究的基准语料库。

Jul, 2022

ESPnet: 端到端语音处理工具包

本文介绍了一个名为 ESPnet 的新的开源语音处理平台，主要关注端到端自动语音识别 (ASR)，采用了广泛使用的动态神经网络工具包 Chainer 和 PyTorch 作为主要深度学习引擎，同时遵循 Kaldi ASR 工具包的风格来完成数据处理，特征提取 / 格式以及食谱以提供完整的语音识别和其他语音处理实验的设置，解释了软件平台的主要架构、几个重要功能和与主要 ASR 基准的实验结果。

Mar, 2018

ESPnet-ST: 全球语音翻译工具箱

ESPnet-ST 是一个新的项目，它是一个专门为在单一框架中快速开发语音到语音翻译系统而设计的，它集成或重新实现了自动语音识别、机器翻译和文本到语音功能。

Apr, 2020

ESPnet-TTS: 统一、可重现、可集成的开源端到端语音合成工具包

该论文介绍了一种名为 ESPnet-TTS 的新型端到端文本到语音工具包，支持最先进的 E2E-TTS 模型，提供基于 Kaldi ASR 工具包的食谱，且提供预先训练好的模型和样例，因此用户可以将其用作基线，实现了与 ASR 功能的集成，如基于 ASR 的目标评估和半监督学习。

Oct, 2019

ESPnet-SPK: 全套语者嵌入工具包，包含可复现的流程、自监督前端和现成模型

ESPnet-SPK 是一个工具包，旨在为演讲者识别社区的研究人员提供一个开源平台，使他们能够轻松构建模型，并与其他领域相结合，展示其多样化的自我监督学习特征的集成模型。

Jan, 2024

ESPnet-ST-v2: 多用途口语翻译工具包

ESPnet-ST-v2 是一个开源工具包，它支持离线语音到文本翻译、同声传译以及离线语音到语音翻译等多种任务，提供了包括转录器、混合 CTC/attention、多解码器、时间同步分块 CTC/attention、Translatotron 模型和直接离散单元模型等最先进的架构。

Apr, 2023

ESPnet2-TTS: TTS 研究的扩展边界

本研究介绍了一个名为 ESPnet2-TTS 的端到端文本转语音工具包，支持实时灵活预处理、神经语音编码器联合训练、先进的 TTS 模型及预训练模型。实验结果表明，该工具包生成的语音接近于真实语音，达到了顶尖水平。

Oct, 2021

ESPnet 工具包的最新进展: Conformer 技术的推动

本文介绍了 ESPnet 工具包中的最新成果，包括基于 Conformer 的新型架构的应用于自动语音识别、语音翻译、语音分离和文本转语音等各种任务的实验结果，具备高性能且与现有的 Transformer 模型相竞争性或超越其成果；同时我们通过公开的语料库和预训练模型减轻了之前模型搭建过程中的资源负担。

Oct, 2020

语音识别，语音增强和自监督学习表示的端到端集成

本文介绍了一种针对鲁棒语音识别的全自动语音识别模型 IRIS，该模型整合了语音增强模块和自监督学习表征模块，并在单通道 CHiME-4 测试中表现出最好的性能（开发集：2.0％，测试集：3.9％）。

Apr, 2022

EURO: ESPnet 无监督自动语音识别开源工具包

本文描述了 ESPnet Unsupervised ASR Open-source Toolkit (EURO)，这是一个用于无监督自动语音识别 (UASR) 的端到端开源工具包，它采用了 Wav2vec-U 的最先进的学习方法，综合 27 个自我监督模型和各种基于图形的解码策略。EURO 通过对 ESPnet 的现有数据集进行完整的设置，提高了流水线的效率，并在 TIMIT 和 LibriSpeech 数据集上取得了最先进的 UASR 性能。

Nov, 2022