会议在线发言人分化的语音分离指导

Jan, 2024

会议在线发言人分化的语音分离指导

Online speaker diarization of meetings guided by speech separation

Elio Gruttadauria, Mathieu Fontaine, Slim Essid

TL;DR我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Abstract

overlapped speech is notoriously problematic for speaker diarization systems. Consequently, the use of speech separation has recently been

overlapped speech speaker diarization speech separation convtasnet dprnn

发现论文，激发创造

在线音视频会议转录技术进展

本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统，该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时，还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法，提供了一个名为 SRD 的会议转录框架，并使用 11 名与会者的会议录音的实验结果表明，连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1％。当有完整的与会者名单时，字词错误率与演讲者归属字词错误率之间的差异仅为 1.0％，表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时，差异略有增加，为 1.6%。

Dec, 2019

远场语音识别的神经盲分离和发言者划分

本文提出了一种神经方法，用于远程语音识别（DSR），它能够在没有隔离信号的监督情况下，同时分离和解麦克风混合的语音，并没有未知数量的活跃说话者。

Jun, 2024

端到端的说话人分割，针对重叠感知的重分割

提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Apr, 2021

使用旁路分离器进行多说话人重叠语音识别和说话人分离的统一建模

通过在单输出识别（ASR）模型中插入侧耳声分离器，结合说话人分离（diarization）任务，提出了一种能够同时定位多个讲话者的多讲话人重叠语音识别语音模型。

May, 2023

ICASSP 2022 多通道多方会议转录挑战赛的 Royalflush 演讲者分离系统

该研究提出将多通道和 U 型网络模型相结合，利用并行和远场声学的优势，在说话人识别系统中实现远场重叠语音检测，并探索了三种说话人嵌入方法，最终取得了最佳性能。

Feb, 2022

实时双耳语音分离并保留空间提示

本文提出了一种基于 TasNet 的多输入多输出的语音分离算法，该算法能够保留声源的空间信息，实现实时修改声学场景，并在不同声学场景中显著改善分离性能并保持位置感知。

Feb, 2020

支持会议识别的连续语音分离的混合编码器

此研究通过引入混合编码器，将重叠的语音分离为无重叠的流，从而处理多说话人和动态重叠的自然会议环境中的自动语音识别，实验结果表明混合编码器具有最先进的性能并强调了 TF-GridNet 的强大分离能力。

Sep, 2023

ICASSP 2022 多通道多方会议转录挑战赛的 Volcspeech 系统

本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1，我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音；对于 Track 2，我们采用 Conformer 模型和神经前端模块来训练系统，实现多声道混叠语音识别，最终取得了比较好的性能表现。

Feb, 2022

使用区域建议网络的说话人分离

本文提出了一种新颖的基于区域提议网络的说话人分离方法，该方法使用神经网络同时生成重叠语音分段建议并计算其说话人嵌入，可以更好地解决重叠语音的问题，并且在三个数据集上的实验结果表明，与现有的 x-vector 模型相比，该模型实现了显著的改进。

Feb, 2020

探索口语理解中有关说话人信息以改进说话人分离

本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法，提出了两个子任务（对话检测和发言者切换检测）来有效地从对话语义中提取讲话者信息，并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明，我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。

May, 2023