学习长期时空图以进行活跃说话者检测

ECCVJul, 2022

学习长期时空图以进行活跃说话者检测

Learning Long-Term Spatial-Temporal Graphs for Active Speaker Detection

Kyle Min, Sourya Roy, Subarna Tripathi, Tanaya Guha, Somdeb Majumdar

TL;DR本文提出了 SPELL，一种新的空间时序图学习框架，通过对每个视频帧中的人员建立节点、建立连接来将复杂任务如活跃扬声器检测转化为节点分类任务，实现了对所有节点的长时间上下文推理，显式地利用了空间和时间结构，明显提高了检测性能，且所需的计算和内存资源显著地降低。

Abstract

active speaker detection (ASD) in videos with multiple speakers is a challenging task as it requires learning effective audiovisual features and

active speaker detection audiovisual features spatial-temporal correlations graph learning framework node classification

发现论文，激发创造

探究长期时间特征，用于音频 - 视觉活动说话者检测

本文提出了一个名为 TalkNet 的新框架，用于在视觉场景中识别正在讲话的人并取得了比现有系统更好的效果。TalkNet 的特点是考虑了短期和长期的信息，并具有音频和视频编码器、跨模态的音视频交互机制以及自注意力机制。

Jul, 2021

端到端的活跃说话人检测

该研究提出了一种端到端可训练的网络，结合图神经网络和弱监督策略，用于解决活动说话者检测问题，取得了最优性能。

Mar, 2022

利用视觉监督进行基于阵列的主动说话人检测和定位

通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络（CRNN），可以独立于视觉模态进行同时水平活动说话者检测和定位（ASDL），超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。

Dec, 2023

重新思考音频 - 视觉同步以进行活动演讲者检测

本文提出一种跨模态对比学习策略，并在注意力模块中应用位置编码来识别音频和视频之间的同步信号，解决现有 ASD 方法不能识别异步视频导致误报的问题。实验结果表明该方法成功检测到非同步说话，解决了当前模型的局限性。

Jun, 2022

LoCoNet：长短时序上下文网络用于活跃说话人检测

该研究提出了一种名为 LoCoNet 的模型，包含长期内讲话者历史和短期内各个讲话者之间的交互信息，使用自注意力机制和卷积块分别建模两种信息，并在多个数据集上取得了最先进的表现。

Jan, 2023

嘈杂环境中的强化实时发言人识别

该论文解决了嘈杂环境中主动说话人检测（ASD）问题，并提出了一个稳健的主动说话人检测（rASD）问题。通过利用视听语音分离技术作为指导来学习无噪音的音频特征，我们提出了一个新颖的框架，该框架同时优化主动说话人检测任务和音频质量问题，改善了传统两阶段框架中的残余噪音和音频质量降低问题，并提高了噪声环境中的 ASD 性能。该框架具有广泛适用性，可应用于不同的 ASD 方法以提高其稳健性。

Mar, 2024

如何设计一个音视觉主动扬声器检测的三级结构

通过对一系列可控实验的研究，本文提出了一些实用的准则，介绍了一个名为 ASDNet 的新架构，在 AVA-ActiveSpeaker 数据集上取得了 93.5％的 mAP，明显优于第二位达 4.7％的巨大优势。

Jun, 2021

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023

情境中的主动说话者

该论文提出了一种新的表示方法 Active Speaker Context，用于学习音视频观察中多个发言人之间的关系，并通过多态结构获得更好的检测表现，最终在 AVA-ActiveSpeaker 数据集上获得 mAP 为 87.1% 的优秀成果。

May, 2020

MAAS: 多模态分配用于活跃说话人检测

本文提出了将图形数据结构应用于音频和视觉信号融合的新方法，将多模式的音视频特征分配给先前检测到的语音事件，实现了 88.8％的 AV-ActiveSpeaker 数据集性能最优。

Jan, 2021