现实世界会议的音视频发言人分离技术
本文介绍了一种音视频 “位置时间标记” 模型,其中多人视觉跟踪与多重语音源定位相结合,通过一种音视频融合方法对话音频信号进行了分离,从而能够同时处理多人的语音信号。该模型在多方交互的情况下处理多人同时发出的语音信号,解决了多人语音辨别问题。
Mar, 2016
本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统,该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时,还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法,提供了一个名为 SRD 的会议转录框架,并使用 11 名与会者的会议录音的实验结果表明,连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1%。当有完整的与会者名单时,字词错误率与演讲者归属字词错误率之间的差异仅为 1.0%,表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时,差异略有增加,为 1.6%。
Dec, 2019
本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中,从而显著减少注释视频所需的时间。通过这种方式,研究人员成功地发布了一个名为 VoxConverse 的大规模分离数据集。
Jul, 2020
通过使用多通道音频和视觉模式,本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法,在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性,并解决离屏说话者的问题。
Jun, 2024
本研究致力于提高在野外视频中识别 “谁何时说话” 的音视频扬声器分离的准确性,它创建了 AVA 音频 - 视觉扬声器分离(AVA-AVD)数据集和一种称为 AVR-Net 的新方法,通过加入 AVA-AVD 数据集的训练可以在相对较小的数据集上显着提高结果。
Nov, 2021
本文提出了一种深度视听语音增强网络方法,借助于对应视频中的嘴唇信息,能够在多人同时说话的情境下,从语音信号中分离出个人的发言,该方法适用于训练时未涉及到的说话者,并在不受限制的环境下,展现了出色的定量和定性效果。
Apr, 2018
本文提出了一种吸引子模型的端到端系统,通过训练模拟数据集来适应于野外含有更多发言者的情况,并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的,但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果,将分离误差绝对值减少了 23.3%。
Nov, 2022
提出自监督的音视频同步学习方法,通过引入动态三元组损失和多项式损失函数来解决说话人分离问题,结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率,并且介绍了一个新的大规模中文音视频语料库。
Feb, 2020
在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统,通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块;与以往的研究不同,我们研究了网络在计算预算耗尽时的错误率,并发现它表现出优雅的降级,即使在此情况下系统仍能正常运行;与传统的声源角估计方法不同,我们的网络利用检测到的头部位置学习查询可用的声学数据;我们在一个现实的会议数据集上训练和评估我们的算法,该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。
Sep, 2023
本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法,提出了两个子任务(对话检测和发言者切换检测)来有效地从对话语义中提取讲话者信息,并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明,我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。
May, 2023