ICASSP 2022 多通道多方会议转录挑战赛的 Royalflush 演讲者分离系统
本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1,我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音;对于 Track 2,我们采用 Conformer 模型和神经前端模块来训练系统,实现多声道混叠语音识别,最终取得了比较好的性能表现。
Feb, 2022
在多频道多方会议转录挑战中,我们提出了两种改进目标说话人语音活动检测技术,能够处理高重叠率,重音和嘈杂环境中的多人对话,并展示了我们的系统与经典聚类算法相比,在 ALIMEETING 语料库中将 DER 降低了长达 66.55/60.59%。
Feb, 2022
本文介绍了在 VoxCeleb2022 挑战中的 Royalflush 提交结果。我们提出了针对监督和半监督说话人验证的强大 U-Net 架构的说话人嵌入提取器,最终得到了 10 个模型的融合结果,取得了较好的 VoxSRC-22 挑战的性能。
Sep, 2022
本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统,并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节,其中包括 Res2Net 基于说话人嵌入提取器,基于 conformer 的连续语音分离和泄漏过滤,以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率(DER)为 3.71%,在评估集上的 DER 为 6.23%,并在挑战的辨识赛道上排名第一。
Oct, 2020
本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统,该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时,还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法,提供了一个名为 SRD 的会议转录框架,并使用 11 名与会者的会议录音的实验结果表明,连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1%。当有完整的与会者名单时,字词错误率与演讲者归属字词错误率之间的差异仅为 1.0%,表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时,差异略有增加,为 1.6%。
Dec, 2019
我们团队在 ICMC-ASR 挑战赛的两个方向上付出了努力,包括多通道前端增强和辨析、训练数据增强、多通道分支的语音识别模型,经测试,在官方 Eval1 和 Eval2 数据集上,我们的最佳系统相对于官方基准系统提高了 34.3% 的 CER 和 56.5% 的 cpCER。
Dec, 2023
该研究论文提出了一种新的模型,结合语音识别和说话人分离的任务,通过引入说话人标签和说话人掩码分支,实现了多说话人重叠语音的识别和说话人分离。实验证明了该方法在复杂的多说话人场景中有效地提高了说话人分离的准确性。
Dec, 2023
通过在单输出识别(ASR)模型中插入侧耳声分离器,结合说话人分离(diarization)任务,提出了一种能够同时定位多个讲话者的多讲话人重叠语音识别语音模型。
May, 2023
该论文描述了 TSUP 团队在 ISCSLP 2022 CSSD 挑战赛中的参赛表现和关键研究成果,侧重于短话语音者分离与新的评价指标 CDER。SC 方法是最受欢迎的方法并且所有的三种语音者分离系统都需要调参,最后 SC 系统的表现居于第三名。
Oct, 2022