利用视觉监督进行基于阵列的主动说话人检测和定位

Dec, 2023

利用视觉监督进行基于阵列的主动说话人检测和定位

Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization

Davide Berghi, Philip J. B. Jackson

TL;DR通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络（CRNN），可以独立于视觉模态进行同时水平活动说话者检测和定位（ASDL），超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。

Abstract

Conventional audio-visual approaches for active speaker detection (ASD) typically rely on visually pre-extracted face tracks and the corresponding single-channel audio to find the speaker in a video. Therefore, t

active speaker detection audio-visual approaches convolutional recurrent neural network self-supervised training multichannel audio

发现论文，激发创造

重新思考音频 - 视觉同步以进行活动演讲者检测

本文提出一种跨模态对比学习策略，并在注意力模块中应用位置编码来识别音频和视频之间的同步信号，解决现有 ASD 方法不能识别异步视频导致误报的问题。实验结果表明该方法成功检测到非同步说话，解决了当前模型的局限性。

Jun, 2022

跨模态监督学习视频中的活动发言者检测

本文利用音频监督视频中活跃讲话者检测的学习，通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类，学习人特定的模型以及在线适应性的改进，利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习，不需要监督，将知识从一种模式传递到另一种模式，建立了自学习活跃讲话者检测系统。

Mar, 2016

视频中音频 - 视觉讲话者定位对空间音效重现的应用

通过使用多通道音频和视觉模式，本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法，在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性，并解决离屏说话者的问题。

Jun, 2024

端到端的活跃说话人检测

该研究提出了一种端到端可训练的网络，结合图神经网络和弱监督策略，用于解决活动说话者检测问题，取得了最优性能。

Mar, 2022

探究长期时间特征，用于音频 - 视觉活动说话者检测

本文提出了一个名为 TalkNet 的新框架，用于在视觉场景中识别正在讲话的人并取得了比现有系统更好的效果。TalkNet 的特点是考虑了短期和长期的信息，并具有音频和视频编码器、跨模态的音视频交互机制以及自注意力机制。

Jul, 2021

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023

学习长期时空图以进行活跃说话者检测

本文提出了 SPELL，一种新的空间时序图学习框架，通过对每个视频帧中的人员建立节点、建立连接来将复杂任务如活跃扬声器检测转化为节点分类任务，实现了对所有节点的长时间上下文推理，显式地利用了空间和时间结构，明显提高了检测性能，且所需的计算和内存资源显著地降低。

Jul, 2022

嘈杂环境中的强化实时发言人识别

该论文解决了嘈杂环境中主动说话人检测（ASD）问题，并提出了一个稳健的主动说话人检测（rASD）问题。通过利用视听语音分离技术作为指导来学习无噪音的音频特征，我们提出了一个新颖的框架，该框架同时优化主动说话人检测任务和音频质量问题，改善了传统两阶段框架中的残余噪音和音频质量降低问题，并提高了噪声环境中的 ASD 性能。该框架具有广泛适用性，可应用于不同的 ASD 方法以提高其稳健性。

Mar, 2024

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

如何设计一个音视觉主动扬声器检测的三级结构

通过对一系列可控实验的研究，本文提出了一些实用的准则，介绍了一个名为 ASDNet 的新架构，在 AVA-ActiveSpeaker 数据集上取得了 93.5％的 mAP，明显优于第二位达 4.7％的巨大优势。

Jun, 2021