会议在线发言人分化的语音分离指导
本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统,该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时,还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法,提供了一个名为 SRD 的会议转录框架,并使用 11 名与会者的会议录音的实验结果表明,连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1%。当有完整的与会者名单时,字词错误率与演讲者归属字词错误率之间的差异仅为 1.0%,表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时,差异略有增加,为 1.6%。
Dec, 2019
提出了一种基于端到端模型的说话人分割方法,直接进行说话人划分,通过多标签分类解决此任务,同时可用于语音活动检测和重叠语音检测,且在多个数据集上都有显著的表现提升。
Apr, 2021
通过在单输出识别(ASR)模型中插入侧耳声分离器,结合说话人分离(diarization)任务,提出了一种能够同时定位多个讲话者的多讲话人重叠语音识别语音模型。
May, 2023
该研究提出将多通道和 U 型网络模型相结合,利用并行和远场声学的优势,在说话人识别系统中实现远场重叠语音检测,并探索了三种说话人嵌入方法,最终取得了最佳性能。
Feb, 2022
本文提出了一种基于 TasNet 的多输入多输出的语音分离算法,该算法能够保留声源的空间信息,实现实时修改声学场景,并在不同声学场景中显著改善分离性能并保持位置感知。
Feb, 2020
此研究通过引入混合编码器,将重叠的语音分离为无重叠的流,从而处理多说话人和动态重叠的自然会议环境中的自动语音识别,实验结果表明混合编码器具有最先进的性能并强调了 TF-GridNet 的强大分离能力。
Sep, 2023
本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1,我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音;对于 Track 2,我们采用 Conformer 模型和神经前端模块来训练系统,实现多声道混叠语音识别,最终取得了比较好的性能表现。
Feb, 2022
本文提出了一种新颖的基于区域提议网络的说话人分离方法,该方法使用神经网络同时生成重叠语音分段建议并计算其说话人嵌入,可以更好地解决重叠语音的问题,并且在三个数据集上的实验结果表明,与现有的 x-vector 模型相比,该模型实现了显著的改进。
Feb, 2020
本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法,提出了两个子任务(对话检测和发言者切换检测)来有效地从对话语义中提取讲话者信息,并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明,我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。
May, 2023