实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

Sep, 2023

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

A Real-Time Active Speaker Detection System Integrating an Audio-Visual Signal with a Spatial Querying Mechanism

Ilya Gurvich, Ido Leichter, Dharmendar Reddy Palle, Yossi Asher, Alon Vinnikov...

TL;DR在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Abstract

We introduce a distinctive real-time, causal, neural network-based active speaker detection system optimized for low-power edge computing. This system drives a →

active speaker detection neural network low-power edge computing virtual cinematography microphone array

发现论文，激发创造

一个轻量级的主动说话人检测模型

提出了一种轻量级的主动说话人检测框架，通过减少输入候选信息、分离 2D 和 3D 卷积进行音视频特征提取、并应用门控循环单元（GRU）进行跨模态建模，可以在计算、资源消耗上比现有方法表现更优。

Mar, 2023

MAAS: 多模态分配用于活跃说话人检测

本文提出了将图形数据结构应用于音频和视觉信号融合的新方法，将多模式的音视频特征分配给先前检测到的语音事件，实现了 88.8％的 AV-ActiveSpeaker 数据集性能最优。

Jan, 2021

为主动发言人检测提供的端到端音视频特征融合

本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架，利用两个 BiGRU 层来处理音视频输入的时间动态，并在 AVAAcitveSpeaker 数据集上的实验结果表明，该模型具有更好的鲁棒性和更好的推断时间。

Jul, 2022

利用视觉监督进行基于阵列的主动说话人检测和定位

通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络（CRNN），可以独立于视觉模态进行同时水平活动说话者检测和定位（ASDL），超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。

Dec, 2023

视频中音频 - 视觉讲话者定位对空间音效重现的应用

通过使用多通道音频和视觉模式，本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法，在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性，并解决离屏说话者的问题。

Jun, 2024

跨模态监督学习视频中的活动发言者检测

本文利用音频监督视频中活跃讲话者检测的学习，通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类，学习人特定的模型以及在线适应性的改进，利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习，不需要监督，将知识从一种模式传递到另一种模式，建立了自学习活跃讲话者检测系统。

Mar, 2016

如何设计一个音视觉主动扬声器检测的三级结构

通过对一系列可控实验的研究，本文提出了一些实用的准则，介绍了一个名为 ASDNet 的新架构，在 AVA-ActiveSpeaker 数据集上取得了 93.5％的 mAP，明显优于第二位达 4.7％的巨大优势。

Jun, 2021

情境中的主动说话者

该论文提出了一种新的表示方法 Active Speaker Context，用于学习音视频观察中多个发言人之间的关系，并通过多态结构获得更好的检测表现，最终在 AVA-ActiveSpeaker 数据集上获得 mAP 为 87.1% 的优秀成果。

May, 2020

探究长期时间特征，用于音频 - 视觉活动说话者检测

本文提出了一个名为 TalkNet 的新框架，用于在视觉场景中识别正在讲话的人并取得了比现有系统更好的效果。TalkNet 的特点是考虑了短期和长期的信息，并具有音频和视频编码器、跨模态的音视频交互机制以及自注意力机制。

Jul, 2021

重新思考音频 - 视觉同步以进行活动演讲者检测

本文提出一种跨模态对比学习策略，并在注意力模块中应用位置编码来识别音频和视频之间的同步信号，解决现有 ASD 方法不能识别异步视频导致误报的问题。实验结果表明该方法成功检测到非同步说话，解决了当前模型的局限性。

Jun, 2022