支持会议识别的连续语音分离的混合编码器

Sep, 2023

支持会议识别的连续语音分离的混合编码器

Mixture Encoder Supporting Continuous Speech Separation for Meeting Recognition

Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter...

TL;DR此研究通过引入混合编码器，将重叠的语音分离为无重叠的流，从而处理多说话人和动态重叠的自然会议环境中的自动语音识别，实验结果表明混合编码器具有最先进的性能并强调了 TF-GridNet 的强大分离能力。

Abstract

Many real-life applications of automatic speech recognition (ASR) require processing of overlapped speech. A commonmethod involves first separating the speech into overlap-free streams and then performing ASR on the resulting signals. Recently, the inclusion of a →

automatic speech recognition speech separation mixture encoder meeting contexts tf-gridnet

发现论文，激发创造

混合编码器用于语音分离和识别

该论文提出了一种基于中间地带的方法来处理多说话者语音识别，该方法既利用了情感识别模块类似于模块化方法的显式语音分离技术，又将混合语音信息直接纳入 ASR 模块，以减轻语音分离器所产生的错误传播，并且通过结合个体说话者信息的层来交换跨说话者的上下文信息。

Jun, 2023

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

使用旁路分离器将单通道语音识别系统转换为多通道系统

本研究提出了一种基于 Sidecar 分离器的多说话人语音识别方法，旨在提高 ASR 模型在多说话人情况下的识别效果，实验结果显示该方法优于现有最先进水平。

Feb, 2023

利用编码解耦的有效混合专家方法进行代码切换语音识别

通过引入一种新的解缠损失函数，本研究专注于改进端到端自动语音识别（ASR）的声学编码器，以解决代码切换现象带来的挑战，并通过实验验证了该方法的优越性。

Feb, 2024

无需转写的噪声和混响多说话人自动语音识别的语音分离模型微调

该论文提出了一种无需参考文本信息的联合训练方法，利用预训练的自动语音识别编码器的嵌入差异作为损失，通过改进的排列不变训练（PIT）方法 —— 引导式 PIT（GPIT），在不同度量指标上取得了 6.4% 的词错误率（WER）改善和感知度量指标（如短时客观清晰度）的提升。

Jun, 2024

探索自监督学习表征中的语音分离与识别集成

深度学习在语音分离方面的应用及其对多说话人语音识别的整合进行了深入研究，并提出了一种通过复杂谱映射和自监督学习表示进行的训练策略，从而在噪声和混响环境下显著提升多说话人语音识别性能。

Jul, 2023

使用 Conformer 进行连续语音分离

本文研究使用 Transformer 和 Conformer 代替递归神经网络在语音分离领域中来提取单个说话者的混合语音，以连续语音分离为主要研究方向，通过在 LibriCSS 数据集上的实验，证明所提模型在语音分离任务中具有最优表现。

Aug, 2020

无预训练的端到端单声道多说话人 ASR 系统

本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Nov, 2018

连续语音分离：数据集与分析

这篇论文通过建立新的 LibriCSS 数据集并制定一套 Kaldi 基础的 ASR 评估方法，对连续语音分离算法进行了评估和研究，以解决自然对话中语音分离的问题。

Jan, 2020

基于 Transformer 的多编码器学习和流融合的端到端自动语音识别

通过研究多种融合技术和多编码器学习方法，以实现对变压器架构的最佳融合，仅在训练期间对两个编码器 - 解码器组合的多头注意权重输出进行加权组合，在推理时使用幅度特征编码器，成功地在 WSJ 上展示了一致的改进，并通过简单的后期融合在 WSJ 上取得了状态 - of-the-art 的表现。

Mar, 2021