重叠编码分离的序列语音信息引导技术用于多说话人自动语音识别

Sep, 2024

重叠编码分离的序列语音信息引导技术用于多说话人自动语音识别

Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition

HTML

PDF

Hao Shi, Yuan Gao, Zhaoheng Ni, Tatsuya Kawahara

TL;DR本研究解决了在多说话人自动语音识别中，仅凭注意力损失进行训练的难题。通过提出重叠编码分离（EncSep）技术，结合连接时序分类（CTC）和注意力混合损失，显著提升了对复杂场景的编码表现，并在LibriMix上的实验显示，该方法有效分离了单一说话人的编码，进一步提升了性能。

Abstract

Serialized output training (SOT) attracts increasing attention due to its convenience and flexibility for Multi-speaker Automatic Speech Recognition (ASR). However, it is not easy to train with attention loss onl

发现论文，激发创造

无预训练的端到端单声道多说话人 ASR 系统

本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Nov, 2018

使用令牌级串行化输出训练的流式多说话人ASR

本文提出了一种基于token级别序列化输出训练（t-SOT）的新型流式多说话人自动语音识别框架，该框架在LibriSpeechMix和LibriCSS数据集中显示出比以前的结果更高的单词错误率的优势。

Feb, 2022

使用旁路分离器将单通道语音识别系统转换为多通道系统

本研究提出了一种基于 Sidecar 分离器的多说话人语音识别方法，旨在提高 ASR 模型在多说话人情况下的识别效果，实验结果显示该方法优于现有最先进水平。

Feb, 2023

混合编码器用于语音分离和识别

该论文提出了一种基于中间地带的方法来处理多说话者语音识别，该方法既利用了情感识别模块类似于模块化方法的显式语音分离技术，又将混合语音信息直接纳入ASR模块，以减轻语音分离器所产生的错误传播，并且通过结合个体说话者信息的层来交换跨说话者的上下文信息。

Jun, 2023

支持会议识别的连续语音分离的混合编码器

此研究通过引入混合编码器，将重叠的语音分离为无重叠的流，从而处理多说话人和动态重叠的自然会议环境中的自动语音识别，实验结果表明混合编码器具有最先进的性能并强调了TF-GridNet的强大分离能力。

Sep, 2023

跨说话人编码网络用于多说话者语音识别

这项工作提出了一个跨说话人编码（Cross-Speaker Encoding，CSE）网络，将单输入多输出（SIMO）模型的局限性通过集成串行输出训练（SOT）的基于注意力的编码器-解码器架构的单输入单输出（SISO）模型来解决，首次尝试将SIMO和SISO整合进多说话人语音识别中，实验结果表明CSE-SOT模型在LibrispeechMix数据集上比SOT模型的词错误率（WER）平均降低10％，在高重叠语音上降低16％。

Jan, 2024

无需转写的噪声和混响多说话人自动语音识别的语音分离模型微调

该论文提出了一种无需参考文本信息的联合训练方法，利用预训练的自动语音识别编码器的嵌入差异作为损失，通过改进的排列不变训练（PIT）方法——引导式PIT（GPIT），在不同度量指标上取得了6.4%的词错误率（WER）改善和感知度量指标（如短时客观清晰度）的提升。

Jun, 2024

学习主导性的序列输出训练

通过在注意力编码器-解码器架构中引入辅助模块，自动识别多讲话者语音输出序列的关键因素，本研究提出了一种基于模型的串行化策略。实验结果表明，在LibriSpeech和LibriMix数据库上，我们的方法在2个混合和3个混合情况下显著超越了PIT和FIFO基准。进一步分析显示，串行化模块通过音量和性别等因素识别混合中的主要语音成分，并根据优先级得分对语音成分进行排序。

Jul, 2024

利用大型语言模型提升多讲者自动语音识别性能

本研究针对多讲者自动语音识别（ASR）中重叠语音识别的挑战，提出了一种基于大型语言模型（LLM）的序列化输出训练方法。这种新方法通过利用预训练的语音编码器和LLM，在多讲者数据集上进行微调，实验结果表明该方法在模拟数据集LibriMix和真实世界数据集AMI的评价集上都超越了传统的AED方法，显示出显著的性能提升。

Aug, 2024

重叠编码分离的序列化语音信息指导用于多说话人自动语音识别

本研究针对多说话人自动语音识别中的训练难题，提出了一种重叠编码分离的方法，以充分利用连接主义时序分类和注意力混合损失的优势。实验结果表明，所提出的方法显著提高了在复杂场景下的识别性能，有助于从重叠编码中分离出单说话人信息。

Sep, 2024