ESPnet-SE++：面向鲁棒语音识别、翻译和理解的语音增强

Jul, 2022

ESPnet-SE++：面向鲁棒语音识别、翻译和理解的语音增强

ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding

Yen-Ju Lu, Xuankai Chang, Chenda Li, Wangyou Zhang, Samuele Cornell...

TL;DR本文介绍了将语音分离和增强（SSE）纳入 ESpnet 工具包的最新进展，包括最新的语音增强模型及其评估，并设计了新界面将语音增强应用于前端任务包括自动语音识别（ASR）、语音翻译（ST）和口语理解（SLU），实验表明其在多通道场景下是一种有前途的研究方向及可以用作未来研究的基准语料库。

Abstract

This paper presents recent progress on integrating speech separation and enhancement (SSE) into the ESPnet toolkit. Compared with the previous ESPnet-SE work, numerous features have been added, including recent state-of-the-art →

speech separation speech enhancement automatic speech recognition spoken language understanding multi-channel

发现论文，激发创造

ESPnet-se: 面向 ASR 集成的端到端语音增强和分离工具包

ESPnet-SE 是一个新的工具包，支持前端语音增强和分离的性能验证和自动语音识别的相关模型和系统的集成，它能够处理单声道和多声道数据，并提供数据预处理、特征提取、训练和评估流程的全套配方。

Nov, 2020

ESPnet-ST: 全球语音翻译工具箱

ESPnet-ST 是一个新的项目，它是一个专门为在单一框架中快速开发语音到语音翻译系统而设计的，它集成或重新实现了自动语音识别、机器翻译和文本到语音功能。

Apr, 2020

ESPnet-ST-v2: 多用途口语翻译工具包

ESPnet-ST-v2 是一个开源工具包，它支持离线语音到文本翻译、同声传译以及离线语音到语音翻译等多种任务，提供了包括转录器、混合 CTC/attention、多解码器、时间同步分块 CTC/attention、Translatotron 模型和直接离散单元模型等最先进的架构。

Apr, 2023

ESPnet-ST IWSLT 2021 离线语音翻译系统

本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力，结合多种技术如序列级知识蒸馏、Conformer 编码器等，同时使用模型组合达到了 31.4 BLEU 的最佳翻译性能。

Jul, 2021

ESPnet: 端到端语音处理工具包

本文介绍了一个名为 ESPnet 的新的开源语音处理平台，主要关注端到端自动语音识别 (ASR)，采用了广泛使用的动态神经网络工具包 Chainer 和 PyTorch 作为主要深度学习引擎，同时遵循 Kaldi ASR 工具包的风格来完成数据处理，特征提取 / 格式以及食谱以提供完整的语音识别和其他语音处理实验的设置，解释了软件平台的主要架构、几个重要功能和与主要 ASR 基准的实验结果。

Mar, 2018

语音识别，语音增强和自监督学习表示的端到端集成

本文介绍了一种针对鲁棒语音识别的全自动语音识别模型 IRIS，该模型整合了语音增强模块和自监督学习表征模块，并在单通道 CHiME-4 测试中表现出最好的性能（开发集：2.0％，测试集：3.9％）。

Apr, 2022

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023

ESPnet-TTS: 统一、可重现、可集成的开源端到端语音合成工具包

该论文介绍了一种名为 ESPnet-TTS 的新型端到端文本到语音工具包，支持最先进的 E2E-TTS 模型，提供基于 Kaldi ASR 工具包的食谱，且提供预先训练好的模型和样例，因此用户可以将其用作基线，实现了与 ASR 功能的集成，如基于 ASR 的目标评估和半监督学习。

Oct, 2019

口语语义解析中管道和端到端 SLU 系统的集成研究 —— 面向 STOP 质量挑战

本文提出了一种基于自动语音识别系统和预训练语言模型的语义解析系统，用于解决在 ICASSP 信号处理大挑战中为语音理解大挑战而提出的质量跟踪 (Track 1) 任务中的问题，并且在这个任务中获得了 80.8 的精确匹配准确率，从而获得了第一名。

May, 2023

使用 U-Net 脉冲神经网络的单信道语音增强

本文提出了一种基于脉冲神经网络（SNN）和 U-Net 架构的能量高效语音增强模型，该模型在处理带有时间维度的数据（例如语音）和应用于资源有限设备上具有良好的性能，实验结果表明所提出的 SNN 模型在能量高效性上优于 Intel Neuromorphic Deep Noise Suppression Challenge（Intel N-DNS Challenge）基准解决方案，并实现了与等效 ANN 模型相当的性能。

Jul, 2023