跨模态监督学习视频中的活动发言者检测

Mar, 2016

跨模态监督学习视频中的活动发言者检测

Cross-modal Supervision for Learning Active Speaker Detection in Video

Punarjay Chakravarty, Tinne Tuytelaars

TL;DR本文利用音频监督视频中活跃讲话者检测的学习，通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类，学习人特定的模型以及在线适应性的改进，利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习，不需要监督，将知识从一种模式传递到另一种模式，建立了自学习活跃讲话者检测系统。

Abstract

In this paper, we show how to use audio to supervise the learning of active speaker detection in video. Voice Activity Detection (VAD) guides the learning of the vision-based classifier in a weakly supervised manner. The classifier uses spatio-temporal features to encode upper body motion - facial expressions and gesticulations associated with speaking. We f

active speaker detection weakly supervised learning audio-visual dataset person-specific models temporal continuity

发现论文，激发创造

MAAS: 多模态分配用于活跃说话人检测

本文提出了将图形数据结构应用于音频和视觉信号融合的新方法，将多模式的音视频特征分配给先前检测到的语音事件，实现了 88.8％的 AV-ActiveSpeaker 数据集性能最优。

Jan, 2021

利用视觉监督进行基于阵列的主动说话人检测和定位

通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络（CRNN），可以独立于视觉模态进行同时水平活动说话者检测和定位（ASDL），超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。

Dec, 2023

AVA-ActiveSpeaker: 一份用于活动说话人检测的音频 - 视觉数据集

本文介绍了 AVA-ActiveSpeaker 数据集，并提出了一种新的视听方法用于活跃演讲者检测，并分析其性能和数据集的贡献。

Jan, 2019

SVVAD：用于说话人验证的个人语音活动检测

我们提出了一种基于说话人验证的语音活动检测框架，实现了无标签训练方法并使用三元损失来适应 SV 中最具信息的声学特征。结果表明，相对于传统方案，该框架在混合说话人的条件下明显提高了等误差率，并揭示了人类判断中不同语音部分的重要性。

May, 2023

视频中音频 - 视觉讲话者定位对空间音效重现的应用

通过使用多通道音频和视觉模式，本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法，在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性，并解决离屏说话者的问题。

Jun, 2024

重新思考音频 - 视觉同步以进行活动演讲者检测

本文提出一种跨模态对比学习策略，并在注意力模块中应用位置编码来识别音频和视频之间的同步信号，解决现有 ASD 方法不能识别异步视频导致误报的问题。实验结果表明该方法成功检测到非同步说话，解决了当前模型的局限性。

Jun, 2022

多模态相关性学习：用于主动说话人检测和语音增强的方法

提出了一个统一框架，通过视听联合建模来实现目标说话人检测和语音增强，以建立音频 - 视觉任务中的多模态关联。

Mar, 2022

探究长期时间特征，用于音频 - 视觉活动说话者检测

本文提出了一个名为 TalkNet 的新框架，用于在视觉场景中识别正在讲话的人并取得了比现有系统更好的效果。TalkNet 的特点是考虑了短期和长期的信息，并具有音频和视频编码器、跨模态的音视频交互机制以及自注意力机制。

Jul, 2021

情境中的主动说话者

该论文提出了一种新的表示方法 Active Speaker Context，用于学习音视频观察中多个发言人之间的关系，并通过多态结构获得更好的检测表现，最终在 AVA-ActiveSpeaker 数据集上获得 mAP 为 87.1% 的优秀成果。

May, 2020

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023