使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

Mar, 2022

使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings

Naoyuki Kanda, Jian Wu, Yu Wu, Xiong Xiao, Zhong Meng...

TL;DR提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型，该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别，并提出了一种基于编码 - 解码的说话者嵌入提取器，可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。

Abstract

This paper presents a streaming speaker-attributed automatic speech recognition (SA-ASR) model that can recognize ``who spoke what'' with low latency even when multiple people are speaking simultaneously. Our model is based on token-level serialized output training (t-SOT) which was re

speaker-attributed automatic speech recognition token-level serialized output training encoder-decoder based speaker embedding speaker identification speaker diarization

发现论文，激发创造

使用令牌级串行化输出训练的流式多说话人 ASR

本文提出了一种基于 token 级别序列化输出训练（t-SOT）的新型流式多说话人自动语音识别框架，该框架在 LibriSpeechMix 和 LibriCSS 数据集中显示出比以前的结果更高的单词错误率的优势。

Feb, 2022

多方会议中说话人归属的自动语音识别的比较研究

对在多方会议场景下的口语识别（SA-ASR）中的发言人进行的比较研究中，通过三种不同的方法进行了评估。结果表明，引入单词级别的划分模型可以有效降低时戳对准错误。同时，采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。

Mar, 2022

改进实际会议应用中的发言人指派的语音识别

优化使用演讲者归属自动语音识别（SA-ASR）系统在实际场景中，如 AMI 会议语料库，用于改进语音片段的演讲者分配的新颖研究，涉及语音活动检测（VAD）、发言者序列聚类（SD）和 SA-ASR 方面的流程。

Mar, 2024

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023

VarArray meets t-SOT: 推进流式远场对话语音识别技术的最新进展

该论文提出了一种新的流式机器人语音识别框架，用于捕获具有任意几何结构的远程麦克风阵列捕获的多个讲话者的重叠语音，并提出了一种基于 VarArray 和 t-SOT 的新型 t-SOT-VA 框架，其结合了连续语音分离和多讲话者语音识别技术。

Sep, 2022

一种统一的模型？走向端到端的联合说话人分离与语音识别

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

说话人感知语音转换器

本研究利用 Speech-Transformer (SST) 研究 E2E 模型的说话人感知训练，提出了一个 Speaker-Aware Speech-Transformer (SAST) 模型，在静态的说话人知识块基础上生成加权的说话人嵌入向量，成功地将训练说话人的因素规范化，相较于独立于某个特定训练说话人的 baseline 模型，SAST 取得了相对 6.5% 的 CER 减少。

Jan, 2020

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

端到端多通道说话人归属 ASR：说话人指导解码器与输入特征分析

我们提出了一种端到端的多通道说话人归属自动语音识别系统（MC-SA-ASR），它将基于 Conformer 的编码器与多帧跨通道注意力和基于说话人归属的 Transformer 解码器相结合。据我们所知，这是第一个在多通道环境中高效集成 ASR 和说话人识别模块的模型。在 LibriSpeech 数据的模拟混合语音中，与之前提出的单通道和多通道方法相比，我们的系统将词错误率（WER）相对降低了 12% 和 16%。此外，我们还研究了不同输入特征（包括多通道幅度和相位信息）对 ASR 性能的影响。最后，我们在 AMI 语料库上对我们的系统进行了实验，确认了我们系统在真实多通道会议转录中的有效性。

Oct, 2023