改进实际会议应用中的发言人指派的语音识别

Mar, 2024

改进实际会议应用中的发言人指派的语音识别

Improving Speaker Assignment in Speaker-Attributed ASR for Real Meeting Applications

Can Cui, Imran Ahamad Sheikh, Mostafa Sadeghi, Emmanuel Vincent

TL;DR优化使用演讲者归属自动语音识别（SA-ASR）系统在实际场景中，如 AMI 会议语料库，用于改进语音片段的演讲者分配的新颖研究，涉及语音活动检测（VAD）、发言者序列聚类（SD）和 SA-ASR 方面的流程。

Abstract

Past studies on end-to-end meeting transcription have focused on model architecture and have mostly been evaluated on simulated meeting data. We present a novel study aiming to optimize the use of a Speaker-Attributed ASR (SA-ASR) system in real-life scenarios, such as the AMI meeting

end-to-end meeting transcription speaker-attributed asr (sa-asr)voice activity detection (vad)speaker diarization (sd)speaker embedding templates

发现论文，激发创造

多方会议中说话人归属的自动语音识别的比较研究

对在多方会议场景下的口语识别（SA-ASR）中的发言人进行的比较研究中，通过三种不同的方法进行了评估。结果表明，引入单词级别的划分模型可以有效降低时戳对准错误。同时，采用目标发言人分离模块和 ASR 模块联合训练可以显著提高 SA-ASR 的性能。

Mar, 2022

使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型，该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别，并提出了一种基于编码 - 解码的说话者嵌入提取器，可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。

Mar, 2022

端到端多通道说话人归属 ASR：说话人指导解码器与输入特征分析

我们提出了一种端到端的多通道说话人归属自动语音识别系统（MC-SA-ASR），它将基于 Conformer 的编码器与多帧跨通道注意力和基于说话人归属的 Transformer 解码器相结合。据我们所知，这是第一个在多通道环境中高效集成 ASR 和说话人识别模块的模型。在 LibriSpeech 数据的模拟混合语音中，与之前提出的单通道和多通道方法相比，我们的系统将词错误率（WER）相对降低了 12% 和 16%。此外，我们还研究了不同输入特征（包括多通道幅度和相位信息）对 ASR 性能的影响。最后，我们在 AMI 语料库上对我们的系统进行了实验，确认了我们系统在真实多通道会议转录中的有效性。

Oct, 2023

应用 ASV 进行语音识别：TTS 模型中 VC 和持续性预测改进的应用

该论文介绍了一种自动发言人验证系统，以从目标发言人的音频中提取嵌入信息，用于获取他的声音的重要特征，如音高、能量和音素的持续时间，并在多声音 TTS 流水线中使用该信息。

Jun, 2024

在线音视频会议转录技术进展

本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统，该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时，还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法，提供了一个名为 SRD 的会议转录框架，并使用 11 名与会者的会议录音的实验结果表明，连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1％。当有完整的与会者名单时，字词错误率与演讲者归属字词错误率之间的差异仅为 1.0％，表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时，差异略有增加，为 1.6%。

Dec, 2019

现实世界会议的音视频发言人分离技术

该论文利用周围视视频和单通道或多通道音频生成强大的发言人识别输出，在真实世界会议中展示出优异的定量和定性性能，并探究了在可用多通道音频的情况下，通过集束成形和视频协同使用，进一步提高性能的方法。

Jun, 2019

USTC-Ximalaya 系统在 ICASSP2022 多通道多方会议转录（M2MeT）挑战中的应用

在多频道多方会议转录挑战中，我们提出了两种改进目标说话人语音活动检测技术，能够处理高重叠率，重音和嘈杂环境中的多人对话，并展示了我们的系统与经典聚类算法相比，在 ALIMEETING 语料库中将 DER 降低了长达 66.55/60.59%。

Feb, 2022

一种统一的模型？走向端到端的联合说话人分离与语音识别

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

SVVAD：用于说话人验证的个人语音活动检测

我们提出了一种基于说话人验证的语音活动检测框架，实现了无标签训练方法并使用三元损失来适应 SV 中最具信息的声学特征。结果表明，相对于传统方案，该框架在混合说话人的条件下明显提高了等误差率，并揭示了人类判断中不同语音部分的重要性。

May, 2023

走向真实场景的端到端演讲者分离

本文提出了一种吸引子模型的端到端系统，通过训练模拟数据集来适应于野外含有更多发言者的情况，并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的，但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果，将分离误差绝对值减少了 23.3%。

Nov, 2022