探究长期时间特征，用于音频 - 视觉活动说话者检测

Jul, 2021

探究长期时间特征，用于音频 - 视觉活动说话者检测

Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection

Ruijie Tao, Zexu Pan, Rohan Kumar Das, Xinyuan Qian, Mike Zheng Shou...

TL;DR本文提出了一个名为 TalkNet 的新框架，用于在视觉场景中识别正在讲话的人并取得了比现有系统更好的效果。TalkNet 的特点是考虑了短期和长期的信息，并具有音频和视频编码器、跨模态的音视频交互机制以及自注意力机制。

Abstract

active speaker detection (ASD) seeks to detect who is speaking in a visual scene of one or more speakers. The successful ASD depends on accurate interpretation of short-term and long-term audio and visual information, as well as →

active speaker detection talknet audio-visual interaction temporal encoders self-attention mechanism

发现论文，激发创造

重新思考音频 - 视觉同步以进行活动演讲者检测

本文提出一种跨模态对比学习策略，并在注意力模块中应用位置编码来识别音频和视频之间的同步信号，解决现有 ASD 方法不能识别异步视频导致误报的问题。实验结果表明该方法成功检测到非同步说话，解决了当前模型的局限性。

Jun, 2022

端到端的活跃说话人检测

该研究提出了一种端到端可训练的网络，结合图神经网络和弱监督策略，用于解决活动说话者检测问题，取得了最优性能。

Mar, 2022

学习长期时空图以进行活跃说话者检测

本文提出了 SPELL，一种新的空间时序图学习框架，通过对每个视频帧中的人员建立节点、建立连接来将复杂任务如活跃扬声器检测转化为节点分类任务，实现了对所有节点的长时间上下文推理，显式地利用了空间和时间结构，明显提高了检测性能，且所需的计算和内存资源显著地降低。

Jul, 2022

LoCoNet：长短时序上下文网络用于活跃说话人检测

该研究提出了一种名为 LoCoNet 的模型，包含长期内讲话者历史和短期内各个讲话者之间的交互信息，使用自注意力机制和卷积块分别建模两种信息，并在多个数据集上取得了最先进的表现。

Jan, 2023

如何设计一个音视觉主动扬声器检测的三级结构

通过对一系列可控实验的研究，本文提出了一些实用的准则，介绍了一个名为 ASDNet 的新架构，在 AVA-ActiveSpeaker 数据集上取得了 93.5％的 mAP，明显优于第二位达 4.7％的巨大优势。

Jun, 2021

利用视觉监督进行基于阵列的主动说话人检测和定位

通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络（CRNN），可以独立于视觉模态进行同时水平活动说话者检测和定位（ASDL），超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。

Dec, 2023

跨模态监督学习视频中的活动发言者检测

本文利用音频监督视频中活跃讲话者检测的学习，通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类，学习人特定的模型以及在线适应性的改进，利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习，不需要监督，将知识从一种模式传递到另一种模式，建立了自学习活跃讲话者检测系统。

Mar, 2016

TalkNCE：利用 Talk-Aware 对比学习改进主动说话者检测

通过探索网络架构，以及使用自然语音与面部动作之间的对应进行学习，我们提出了一种新颖的 TalkNCE 对比损失函数，可用于主动说话者检测任务，无需额外的监督或训练数据，可以与现有的主动说话者检测模型在 AVA-ActiveSpeaker 和 ASW 数据集上联合优化，从而提高其性能。

Sep, 2023

嘈杂环境中的强化实时发言人识别

该论文解决了嘈杂环境中主动说话人检测（ASD）问题，并提出了一个稳健的主动说话人检测（rASD）问题。通过利用视听语音分离技术作为指导来学习无噪音的音频特征，我们提出了一个新颖的框架，该框架同时优化主动说话人检测任务和音频质量问题，改善了传统两阶段框架中的残余噪音和音频质量降低问题，并提高了噪声环境中的 ASD 性能。该框架具有广泛适用性，可应用于不同的 ASD 方法以提高其稳健性。

Mar, 2024

情境中的主动说话者

该论文提出了一种新的表示方法 Active Speaker Context，用于学习音视频观察中多个发言人之间的关系，并通过多态结构获得更好的检测表现，最终在 AVA-ActiveSpeaker 数据集上获得 mAP 为 87.1% 的优秀成果。

May, 2020