ESPnet-se: 面向 ASR 集成的端到端语音增强和分离工具包
本文介绍了将语音分离和增强(SSE)纳入 ESpnet 工具包的最新进展,包括最新的语音增强模型及其评估,并设计了新界面将语音增强应用于前端任务包括自动语音识别(ASR)、语音翻译(ST)和口语理解(SLU),实验表明其在多通道场景下是一种有前途的研究方向及可以用作未来研究的基准语料库。
Jul, 2022
本文介绍了一个名为 ESPnet 的新的开源语音处理平台,主要关注端到端自动语音识别 (ASR),采用了广泛使用的动态神经网络工具包 Chainer 和 PyTorch 作为主要深度学习引擎,同时遵循 Kaldi ASR 工具包的风格来完成数据处理,特征提取 / 格式以及食谱以提供完整的语音识别和其他语音处理实验的设置,解释了软件平台的主要架构、几个重要功能和与主要 ASR 基准的实验结果。
Mar, 2018
ESPnet-ST 是一个新的项目,它是一个专门为在单一框架中快速开发语音到语音翻译系统而设计的,它集成或重新实现了自动语音识别、机器翻译和文本到语音功能。
Apr, 2020
该论文介绍了一种名为 ESPnet-TTS 的新型端到端文本到语音工具包,支持最先进的 E2E-TTS 模型,提供基于 Kaldi ASR 工具包的食谱,且提供预先训练好的模型和样例,因此用户可以将其用作基线,实现了与 ASR 功能的集成,如基于 ASR 的目标评估和半监督学习。
Oct, 2019
ESPnet-SPK 是一个工具包,旨在为演讲者识别社区的研究人员提供一个开源平台,使他们能够轻松构建模型,并与其他领域相结合,展示其多样化的自我监督学习特征的集成模型。
Jan, 2024
ESPnet-ST-v2 是一个开源工具包,它支持离线语音到文本翻译、同声传译以及离线语音到语音翻译等多种任务,提供了包括转录器、混合 CTC/attention、多解码器、时间同步分块 CTC/attention、Translatotron 模型和直接离散单元模型等最先进的架构。
Apr, 2023
本研究介绍了一个名为 ESPnet2-TTS 的端到端文本转语音工具包,支持实时灵活预处理、神经语音编码器联合训练、先进的 TTS 模型及预训练模型。实验结果表明,该工具包生成的语音接近于真实语音,达到了顶尖水平。
Oct, 2021
本文介绍了 ESPnet 工具包中的最新成果,包括基于 Conformer 的新型架构的应用于自动语音识别、语音翻译、语音分离和文本转语音等各种任务的实验结果,具备高性能且与现有的 Transformer 模型相竞争性或超越其成果;同时我们通过公开的语料库和预训练模型减轻了之前模型搭建过程中的资源负担。
Oct, 2020
本文介绍了一种针对鲁棒语音识别的全自动语音识别模型 IRIS,该模型整合了语音增强模块和自监督学习表征模块,并在单通道 CHiME-4 测试中表现出最好的性能(开发集:2.0%,测试集:3.9%)。
Apr, 2022
本文描述了 ESPnet Unsupervised ASR Open-source Toolkit (EURO),这是一个用于无监督自动语音识别 (UASR) 的端到端开源工具包,它采用了 Wav2vec-U 的最先进的学习方法,综合 27 个自我监督模型和各种基于图形的解码策略。EURO 通过对 ESPnet 的现有数据集进行完整的设置,提高了流水线的效率,并在 TIMIT 和 LibriSpeech 数据集上取得了最先进的 UASR 性能。
Nov, 2022