Naver 参加 ActivityNet Challenge 2019 -- 任务 B 的主动式发言人检测 (AVA)

Jun, 2019

Naver 参加 ActivityNet Challenge 2019 -- 任务 B 的主动式发言人检测 (AVA)

Naver at ActivityNet Challenge 2019 -- Task B Active Speaker Detection (AVA)

Joon Son Chung

TL;DR本研究使用 3D 卷积神经网络和一组时间卷积和 LSTM 分类器，对可见人是否在说话进行预测，从而在 AVS-ActiveSpeaker 数据集上获得了显著的改进。

Abstract

This report describes our submission to the activitynet challenge at CVPR 2019. We use a 3d convolutional neural network (CNN) based front-end and an ensemble of →

activitynet challenge 3d convolutional neural network temporal convolution lstm classifiers ava-activespeaker dataset

发现论文，激发创造

AVA-ActiveSpeaker: 一份用于活动说话人检测的音频 - 视觉数据集

本文介绍了 AVA-ActiveSpeaker 数据集，并提出了一种新的视听方法用于活跃演讲者检测，并分析其性能和数据集的贡献。

Jan, 2019

一个轻量级的主动说话人检测模型

提出了一种轻量级的主动说话人检测框架，通过减少输入候选信息、分离 2D 和 3D 卷积进行音视频特征提取、并应用门控循环单元（GRU）进行跨模态建模，可以在计算、资源消耗上比现有方法表现更优。

Mar, 2023

情境中的主动说话者

该论文提出了一种新的表示方法 Active Speaker Context，用于学习音视频观察中多个发言人之间的关系，并通过多态结构获得更好的检测表现，最终在 AVA-ActiveSpeaker 数据集上获得 mAP 为 87.1% 的优秀成果。

May, 2020

为主动发言人检测提供的端到端音视频特征融合

本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架，利用两个 BiGRU 层来处理音视频输入的时间动态，并在 AVAAcitveSpeaker 数据集上的实验结果表明，该模型具有更好的鲁棒性和更好的推断时间。

Jul, 2022

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023

UniCon+：ICTCAS-UCAS 在 ActivityNet Challenge 2022 的 AVA-ActiveSpeaker 任务中的提交

本文介绍了参加 ActivityNet Challenge 2022 中 AVA 活动演讲者检测任务的获胜解决方案 UniCon+，该模型在 UniCon 和 Extended UniCon 的基础上使用了一种简单的 GRU-based module，可以通过读取和更新操作使重复身份信息横跨场景传递，最终在 AVA-ActiveSpeaker 测试集上获得了 94.47％的 mAP 最好结果，并在本年度比赛中排名第一，显著推动了最新技术的发展。

Jun, 2022

VoxCeleb2：深度语音说话人识别

本文介绍了一个大规模的音频 - 视觉说话人识别数据集，用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份，并展示出比以前的成果更高的性能表现。

Jun, 2018

如何设计一个音视觉主动扬声器检测的三级结构

通过对一系列可控实验的研究，本文提出了一些实用的准则，介绍了一个名为 ASDNet 的新架构，在 AVA-ActiveSpeaker 数据集上取得了 93.5％的 mAP，明显优于第二位达 4.7％的巨大优势。

Jun, 2021

探究长期时间特征，用于音频 - 视觉活动说话者检测

本文提出了一个名为 TalkNet 的新框架，用于在视觉场景中识别正在讲话的人并取得了比现有系统更好的效果。TalkNet 的特点是考虑了短期和长期的信息，并具有音频和视频编码器、跨模态的音视频交互机制以及自注意力机制。

Jul, 2021

2022 年 Ego4D 挑战赛中英特尔实验室：音视频对话更优秀的基线

报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法，该方法通过对模型的训练计划进行修改改进了声音活动的检测性能，证明了采用现成的语音活动检测模型可以有效地消除误报，而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER，远远优于所有基线，在比赛中取得了第一名。

Oct, 2022