- 视频中音频 - 视觉讲话者定位对空间音效重现的应用
通过使用多通道音频和视觉模式,本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法,在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性,并解决离屏说话者的问题。
- 嘈杂环境中的强化实时发言人识别
该论文解决了嘈杂环境中主动说话人检测(ASD)问题,并提出了一个稳健的主动说话人检测(rASD)问题。通过利用视听语音分离技术作为指导来学习无噪音的音频特征,我们提出了一个新颖的框架,该框架同时优化主动说话人检测任务和音频质量问题,改善了传 - 利用视觉监督进行基于阵列的主动说话人检测和定位
通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络(CRNN),可以独立于视觉模态进行同时水平活动说话者检测和定位(ASDL),超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。
- TalkNCE:利用 Talk-Aware 对比学习改进主动说话者检测
通过探索网络架构,以及使用自然语音与面部动作之间的对应进行学习,我们提出了一种新颖的 TalkNCE 对比损失函数,可用于主动说话者检测任务,无需额外的监督或训练数据,可以与现有的主动说话者检测模型在 AVA-ActiveSpeaker 和 - 实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制
在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统,通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块;与以往的研究不同,我们研究了网络在计算预算耗尽时的错误率,并发现它表现出优雅的降级,即使在此情况下系 - CVPR一个轻量级的主动说话人检测模型
提出了一种轻量级的主动说话人检测框架,通过减少输入候选信息、分离 2D 和 3D 卷积进行音视频特征提取、并应用门控循环单元(GRU)进行跨模态建模,可以在计算、资源消耗上比现有方法表现更优。
- LoCoNet:长短时序上下文网络用于活跃说话人检测
该研究提出了一种名为 LoCoNet 的模型,包含长期内讲话者历史和短期内各个讲话者之间的交互信息,使用自注意力机制和卷积块分别建模两种信息,并在多个数据集上取得了最先进的表现。
- ECCV2022 年 Ego4D 挑战赛中英特尔实验室:音视频对话更优秀的基线
报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法,该方法通过对模型的训练计划进行修改改进了声音活动的检测性能,证明了采用现成的语音活动检测模型可以有效地消除误 - 为主动发言人检测提供的端到端音视频特征融合
本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架,利用两个 BiGRU 层来处理音视频输入的时间动态,并在 AVAAcitveSpeaker 数据集上的实验结果表明,该模型具有更好的鲁棒性和更好的推断时间。
- ECCV学习长期时空图以进行活跃说话者检测
本文提出了 SPELL,一种新的空间时序图学习框架,通过对每个视频帧中的人员建立节点、建立连接来将复杂任务如活跃扬声器检测转化为节点分类任务,实现了对所有节点的长时间上下文推理,显式地利用了空间和时间结构,明显提高了检测性能,且所需的计算和 - CVPRUniCon+:ICTCAS-UCAS 在 ActivityNet Challenge 2022 的 AVA-ActiveSpeaker 任务中的提交
本文介绍了参加 ActivityNet Challenge 2022 中 AVA 活动演讲者检测任务的获胜解决方案 UniCon+,该模型在 UniCon 和 Extended UniCon 的基础上使用了一种简单的 GRU-based m - 重新思考音频 - 视觉同步以进行活动演讲者检测
本文提出一种跨模态对比学习策略,并在注意力模块中应用位置编码来识别音频和视频之间的同步信号,解决现有 ASD 方法不能识别异步视频导致误报的问题。实验结果表明该方法成功检测到非同步说话,解决了当前模型的局限性。
- 端到端的活跃说话人检测
该研究提出了一种端到端可训练的网络,结合图神经网络和弱监督策略,用于解决活动说话者检测问题,取得了最优性能。
- 多模态相关性学习:用于主动说话人检测和语音增强的方法
提出了一个统一框架,通过视听联合建模来实现目标说话人检测和语音增强,以建立音频 - 视觉任务中的多模态关联。
- UniCon: 统一的上下文网络用于强韧的活动说话人检测
提出了一种新的有效框架 UniCon,用于鲁棒的活动演讲者检测,其聚焦于联合建模多种类型的情境信息,包括与候选者之间的视觉关系,以及音频和视觉的关系,并通过聚合长期信息,进一步提高检测效果。
- 探究长期时间特征,用于音频 - 视觉活动说话者检测
本文提出了一个名为 TalkNet 的新框架,用于在视觉场景中识别正在讲话的人并取得了比现有系统更好的效果。TalkNet 的特点是考虑了短期和长期的信息,并具有音频和视频编码器、跨模态的音视频交互机制以及自注意力机制。
- ICCV如何设计一个音视觉主动扬声器检测的三级结构
通过对一系列可控实验的研究,本文提出了一些实用的准则,介绍了一个名为 ASDNet 的新架构,在 AVA-ActiveSpeaker 数据集上取得了 93.5%的 mAP,明显优于第二位达 4.7%的巨大优势。
- MAAS: 多模态分配用于活跃说话人检测
本文提出了将图形数据结构应用于音频和视觉信号融合的新方法,将多模式的音视频特征分配给先前检测到的语音事件,实现了 88.8%的 AV-ActiveSpeaker 数据集性能最优。
- 野外演讲者日志检测
本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中,从而显著减少注释视频所需的时间。通过这种方式,研究人员成功地发布了一个名为 VoxConverse 的大规模 - 情境中的主动说话者
该论文提出了一种新的表示方法 Active Speaker Context,用于学习音视频观察中多个发言人之间的关系,并通过多态结构获得更好的检测表现,最终在 AVA-ActiveSpeaker 数据集上获得 mAP 为 87.1% 的优秀