无预训练的端到端单声道多说话人 ASR 系统

Nov, 2018

无预训练的端到端单声道多说话人 ASR 系统

End-to-End Monaural Multi-speaker ASR System without Pretraining

Xuankai Chang, Yanmin Qian, Kai Yu, Shinji Watanabe

TL;DR本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Abstract

Recently, end-to-end models have become a popular approach as an alternative to traditional hybrid models in automatic speech recognition (ASR). The multi-speaker speech separation and recognition task is a centr

end-to-end model automatic speech recognition multi-speaker speech separation monaural attention module

发现论文，激发创造

混合编码器用于语音分离和识别

该论文提出了一种基于中间地带的方法来处理多说话者语音识别，该方法既利用了情感识别模块类似于模块化方法的显式语音分离技术，又将混合语音信息直接纳入 ASR 模块，以减轻语音分离器所产生的错误传播，并且通过结合个体说话者信息的层来交换跨说话者的上下文信息。

Jun, 2023

多说话人语音识别的纯端到端系统

本文提出了一种新的序列到序列的框架，即多说话者语音识别，通过端到端的方式将源分离和语音识别功能统一处理，同时提出了一种新的目标函数来提高隐藏向量间的对比度，实验结果显示该模型能够直接学习从语音混合到多个标签序列的映射，与之前的显式分离和识别模块的端对端工作相比，取得了 83.1% 的相对改进。

May, 2018

快速高效语音系统统一的端到端语音识别和端点检测

通过引入 “开关” 连接，将语音识别（ASR）和端点探测（EP）训练为单一的端对端（E2E）多任务模型，并利用 ASR 音频编码器的信息来提高 EP 质量，以此来减少延迟并改善连续语音识别的识别率。

Nov, 2022

单声道多说话人语音分离使用高效 Transformer 模型

鸡尾酒会问题是指从多个说话者的混合语音中分离或区分单个说话者变得困难的情境。本研究采用基于 Transformer 架构及其高效形式的语音分离模型，在 LibriMix 数据集上进行训练，该数据集包含多样的说话者语音。该模型能从混合音频输入中分离出两个不同的说话者源，实现了对语音分离模型计算复杂度的降低，并在性能与流行的语音分离模型之间取得了显著进展。该项目预计将为以计算效率为核心的语音分离领域的持续研究做出贡献。

Jul, 2023

交叉注意力端到端语音识别技术在双方对话中的应用

本文提出一种利用端到端方法，基于对话流转信息学习两个不同说话者交互的语音识别模型。该模型采用讲话人特定的交叉注意机制来帮助识别长时间的对话，并在 Switchboard 对话语音库上进行了评估，表现出优异的性能。

Jul, 2019

Convoifilter：一项关于进行鸡尾酒会话语音识别的案例研究

该论文提出了一种端到端模型，旨在改进在拥挤嘈杂环境中特定讲话者的自动语音识别（ASR）。该模型利用单通道语音增强模块将讲话者的声音与背景噪音隔离，并结合了 ASR 模块。通过这种方法，该模型能够将 ASR 的识别错误率（WER）从 80％降低到 26.4％。通常，由于数据要求的差异，这两个组件是独立调整的。然而，语音增强可能会引起降低 ASR 效率的异常情况。通过实施联合精调策略，该模型可以将单独调整中的 WER 从 26.4％降低到 14.5％。

Aug, 2023

端到端联合识别非目标发言人与目标发言人的自动语音识别

本文提出一种新颖的自动语音识别系统，能够在多人重叠说话的情况下转录出单个说话者的发言，同时识别他们是目标还是非目标说话者。

Jun, 2023

端到端多通道说话人归属 ASR：说话人指导解码器与输入特征分析

我们提出了一种端到端的多通道说话人归属自动语音识别系统（MC-SA-ASR），它将基于 Conformer 的编码器与多帧跨通道注意力和基于说话人归属的 Transformer 解码器相结合。据我们所知，这是第一个在多通道环境中高效集成 ASR 和说话人识别模块的模型。在 LibriSpeech 数据的模拟混合语音中，与之前提出的单通道和多通道方法相比，我们的系统将词错误率（WER）相对降低了 12% 和 16%。此外，我们还研究了不同输入特征（包括多通道幅度和相位信息）对 ASR 性能的影响。最后，我们在 AMI 语料库上对我们的系统进行了实验，确认了我们系统在真实多通道会议转录中的有效性。

Oct, 2023

采用置换不变训练的单通道多说话人语音识别

本文探讨了如何通过扩展置换不变训练（PIT）方法并引入前端特征分离模块（最小均方误差标准）和后端识别模块（最小交叉熵标准），解决在多说话人混合语音识别中的问题，并且在 AMI 数据集（包括二人和三人的混音语音）的实验中，相对于同类不同说话人的语音识别系统，识别率提高了 45% 和 25%。

Jul, 2017

多阶段多模态预训练自动语音识别

多模态预训练可以提高自动语音识别性能，尤其是结合多任务无监督预训练和基于翻译的有监督中间训练方法可以实现显著的字错误率改善。

Mar, 2024