实时说话人分离的时间自训练
在线说话者辨识提供了 “谁何时说话” 的答案,可用于完成音频转录和后续处理步骤;本文概述了在线说话者辨识的历史、训练与评估数据集,详细讨论了在线辨识方法与系统,并提出了该领域需要未来研究解决的挑战。
Jun, 2024
提出自监督的音视频同步学习方法,通过引入动态三元组损失和多项式损失函数来解决说话人分离问题,结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率,并且介绍了一个新的大规模中文音视频语料库。
Feb, 2020
本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统,该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时,还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法,提供了一个名为 SRD 的会议转录框架,并使用 11 名与会者的会议录音的实验结果表明,连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1%。当有完整的与会者名单时,字词错误率与演讲者归属字词错误率之间的差异仅为 1.0%,表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时,差异略有增加,为 1.6%。
Dec, 2019
本研究提出了一种半自动化的方法,用于创建一个按照 32 个类别(2 种性别、4 个年龄范围和 4 个录制时期)平衡了发言人年龄、性别和录制时期的历时语料库。该方法通过自动处理管道,包括语音检测、背景音乐和重叠语音去除以及说话者分离,大大减少了人工处理,显示出了创建大型目标说话者语料库的潜力。
Apr, 2024
本研究提出了一种新型的机器学习框架,可以在完全在线学习的情况下实现实时的多说话者辨识和识别,同时通过半监督和自监督学习方法解决了在线学习中出现的奖励呈现问题,并提供了一个可以交互处理冷启动问题的可行的基于网络的识别系统。
Jun, 2020
本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中,从而显著减少注释视频所需的时间。通过这种方式,研究人员成功地发布了一个名为 VoxConverse 的大规模分离数据集。
Jul, 2020
本文综述了演讲者分离技术的历史发展,并重点介绍了基于深度学习的新进展,以及演讲者分离系统与语音识别应用之间的相互作用。我们认为,这是一篇有价值的综述工作,为进一步提高演讲者分离效率提供了有力的支持。
Jan, 2021