利用自注意力通道组合的远场 ASR 空间处理前端

Mar, 2022

利用自注意力通道组合的远场 ASR 空间处理前端

Spatial Processing Front-End For Distant ASR Exploiting Self-Attention Channel Combinator

Dushyant Sharma, Rong Gong, James Fosburgh, Stanislav Yu. Kruchinin, Patrick A. Naylor...

TL;DR提出了一种基于多通道前端与加权预测误差方法、定向最小方差冲束形成器和基于自注意力的通道合并方案的 ASR 系统，结合 ContextNet 系统，相比其他 ASR 系统在多通道语音识别问题上取得了更好的效果，并验证了前置去混响和改进的神经通道缩短方法带来的益处，同时探讨了 C50 声信噪比的评估和权重的意义。

Abstract

We present a novel multi-channel front-end based on channel shortening with theWeighted Prediction Error (WPE) method followed by a fixed MVDR beamformer used in combination with a recently proposed self-attention-based channel combination (SACC) scheme, for tackling the distant

multi-channel front-end weighted prediction error self-attention-based channel combination asr dereverberation

发现论文，激发创造

音频视觉端到端多通道语音分离、去混响和识别

通过全面将视频信息融入系统的所有组件，我们提出了一种音频 - 视觉多通道语音分离、去混响和识别方法，有效地解决了包含重叠发言者、噪声和混响的鸡尾酒会言语的准确识别问题。

Jul, 2023

端到端多通道说话人归属 ASR：说话人指导解码器与输入特征分析

我们提出了一种端到端的多通道说话人归属自动语音识别系统（MC-SA-ASR），它将基于 Conformer 的编码器与多帧跨通道注意力和基于说话人归属的 Transformer 解码器相结合。据我们所知，这是第一个在多通道环境中高效集成 ASR 和说话人识别模块的模型。在 LibriSpeech 数据的模拟混合语音中，与之前提出的单通道和多通道方法相比，我们的系统将词错误率（WER）相对降低了 12% 和 16%。此外，我们还研究了不同输入特征（包括多通道幅度和相位信息）对 ASR 性能的影响。最后，我们在 AMI 语料库上对我们的系统进行了实验，确认了我们系统在真实多通道会议转录中的有效性。

Oct, 2023

基于 Transformer 的端到端多说话人语音识别

本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型，应用于多说话者语音识别和神经束形成器中的遮盖网络，得以有效处理混响信号，并加入外部去混响预处理方法进行对比试验。实验证明，在单通道和多通道任务下，基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%，在混响环境中的相对错误率降低达 41.5% 和 13.8%。

Feb, 2020

利用单声道语音进行多声道端到端语音识别的比较研究

本文研究如何利用单通道数据优化多通道端到端语音识别，通过三种方案比较发现数据模拟方法精度最高，但训练时间较长，数据调度方法次之，而后端预训练方法效果较弱。

Mar, 2022

自动语音识别中替代 CNN 前端的多视角频率 - 注意力算法

采用 F-Attention 模块替代卷积神经网络前端，在语音识别系统中全局关注频率可以显著减少相对字错率。

Jun, 2023

ICASSP 2022 多通道多方会议转录挑战赛的 Volcspeech 系统

本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1，我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音；对于 Track 2，我们采用 Conformer 模型和神经前端模块来训练系统，实现多声道混叠语音识别，最终取得了比较好的性能表现。

Feb, 2022

基于注意力机制的神经网络用于无线信道估计

本文提出一种利用自注意机制实现正交频分复用波形下行链路信道估计的新型混合编码器 - 解码器结构（称为 HA02），利用 3GPP 信道模型进行模拟，结果显示其在信道估计方面表现更优秀。

Apr, 2022

统一多通道远场语音识别系统：将神经波束形成与基于注意力的端到端模型结合

我们提出了一种统一的多通道远场语音识别系统，结合了神经波束成形和基于 Transformer 的 Listen，Spell，Attend（LAS）语音识别系统，进一步扩展了端到端语音识别系统以包含语音增强，并通过共同训练来优化最终目标。

Jan, 2024

语音去噪的 Wavenet

该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法，旨在进行语音去噪处理，比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。

Jun, 2017

语音增强中高效编码器 - 解码器和双通道 Conformer 的综合特征学习

该论文提出了一种基于改进密集连接块、双路径模块、卷积增强变形器、通道注意力和空间注意力的时间频域语音增强网络（DPCFCS-Net）, 在 VCTK+DEMAND 数据集上表现优于现有技术，其改进的密集连接块和二维注意力模块易于集成到现有网络中，具有更高的适应性。

Jun, 2023