ICASSP 2022 多通道多方会议转录挑战赛的 Royalflush 演讲者分离系统

Feb, 2022

ICASSP 2022 多通道多方会议转录挑战赛的 Royalflush 演讲者分离系统

Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel Multi-party Meeting Transcription Challenge

Jingguang Tian, Xinhui Hu, Xinkang Xu

TL;DR该研究提出将多通道和 U 型网络模型相结合，利用并行和远场声学的优势，在说话人识别系统中实现远场重叠语音检测，并探索了三种说话人嵌入方法，最终取得了最佳性能。

Abstract

This paper describes the Royalflush speaker diarization system submitted to the multi-channel Multi-party Meeting Transcription Challenge(M2MeT). Our system comprises speech enhancement, →

speaker diarization multi-channel overlapped speech detection speaker embedding speech separation

发现论文，激发创造

ICASSP 2022 多通道多方会议转录挑战赛的 Volcspeech 系统

本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1，我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音；对于 Track 2，我们采用 Conformer 模型和神经前端模块来训练系统，实现多声道混叠语音识别，最终取得了比较好的性能表现。

Feb, 2022

USTC-Ximalaya 系统在 ICASSP2022 多通道多方会议转录（M2MeT）挑战中的应用

在多频道多方会议转录挑战中，我们提出了两种改进目标说话人语音活动检测技术，能够处理高重叠率，重音和嘈杂环境中的多人对话，并展示了我们的系统与经典聚类算法相比，在 ALIMEETING 语料库中将 DER 降低了长达 66.55/60.59%。

Feb, 2022

2022 VoxCeleb 说话人识别挑战赛的 Royalflush 系统

本文介绍了在 VoxCeleb2022 挑战中的 Royalflush 提交结果。我们提出了针对监督和半监督说话人验证的强大 U-Net 架构的说话人嵌入提取器，最终得到了 10 个模型的融合结果，取得了较好的 VoxSRC-22 挑战的性能。

Sep, 2022

2020 年 VoxCeleb 说话人识别大赛微软说话人分离系统

本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统，并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节，其中包括 Res2Net 基于说话人嵌入提取器，基于 conformer 的连续语音分离和泄漏过滤，以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率（DER）为 3.71％，在评估集上的 DER 为 6.23％，并在挑战的辨识赛道上排名第一。

Oct, 2020

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

在线音视频会议转录技术进展

本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统，该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时，还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法，提供了一个名为 SRD 的会议转录框架，并使用 11 名与会者的会议录音的实验结果表明，连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1％。当有完整的与会者名单时，字词错误率与演讲者归属字词错误率之间的差异仅为 1.0％，表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时，差异略有增加，为 1.6%。

Dec, 2019

ICASSP2024 ICMC-ASR 大赛的 NUS-HLT 系统

我们团队在 ICMC-ASR 挑战赛的两个方向上付出了努力，包括多通道前端增强和辨析、训练数据增强、多通道分支的语音识别模型，经测试，在官方 Eval1 和 Eval2 数据集上，我们的最佳系统相对于官方基准系统提高了 34.3% 的 CER 和 56.5% 的 cpCER。

Dec, 2023

多说话人重叠语音识别的演讲者掩蔽变换器

该研究论文提出了一种新的模型，结合语音识别和说话人分离的任务，通过引入说话人标签和说话人掩码分支，实现了多说话人重叠语音的识别和说话人分离。实验证明了该方法在复杂的多说话人场景中有效地提高了说话人分离的准确性。

Dec, 2023

使用旁路分离器进行多说话人重叠语音识别和说话人分离的统一建模

通过在单输出识别（ASR）模型中插入侧耳声分离器，结合说话人分离（diarization）任务，提出了一种能够同时定位多个讲话者的多讲话人重叠语音识别语音模型。

May, 2023

面向短语对话扬声器辨别挑战的 TSUP 扬声器分离系统

该论文描述了 TSUP 团队在 ISCSLP 2022 CSSD 挑战赛中的参赛表现和关键研究成果，侧重于短话语音者分离与新的评价指标 CDER。SC 方法是最受欢迎的方法并且所有的三种语音者分离系统都需要调参，最后 SC 系统的表现居于第三名。

Oct, 2022