QuAVF: 面向 Ego4D Talking to Me 挑战的音视频融合质量感知技术

Jun, 2023

QuAVF: 面向 Ego4D Talking to Me 挑战的音视频融合质量感知技术

QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me Challenge

Hsi-Che Lin, Chien-Yi Wang, Min-Hung Chen, Szu-Wei Fu, Yu-Chiang Frank Wang

TL;DR本文介绍了 QuAVF@NTU-NVIDIA 团队在 Ego4D Talking to Me (TTM) Challenge 2023 中的参赛作品，该作品利用两个模型处理输入视频和语音，通过面部质量分数过滤嘈杂的面部输入数据并实现质量感知融合，取得了 67.4％的均值精度 (mAP) 的最优结果。

Abstract

This technical report describes our quavf@ntu-nvidia submission to the Ego4D Talking to Me (TTM) Challenge 2023. Based on the observation from the TTM task and the provided dataset, we propose to use two separate

quavf ntu-nvidia submission ego4d talking to me challenge input videos audio

发现论文，激发创造

AVFace: 面向详细的音频视觉 4D 人脸重建

该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建，并使用 AVFace 技术准确地重构任何人的面部和唇部运动，而无需任何 3D 地面真实测试。

Apr, 2023

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024

2022 年 Ego4D 挑战赛中英特尔实验室：音视频对话更优秀的基线

报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法，该方法通过对模型的训练计划进行修改改进了声音活动的检测性能，证明了采用现成的语音活动检测模型可以有效地消除误报，而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER，远远优于所有基线，在比赛中取得了第一名。

Oct, 2022

AVT2-DWF: 基于音视频融合和动态加权策略的深假检测方法

本文提出了 AVT2-DWF，通过音视频双重变换和动态权重融合，增强了单一伪造模态和多模态融合下的伪造检测能力，在 DeepfakeTIMIT，FakeAVCeleb 和 DFDC 数据集上取得了最先进的性能。

Mar, 2024

音视频领导者 - 追随者注意力融合的连续情感识别

本文提出一种视听空间时域深度神经网络，其中包括预训练的二维 - CNN 和几个平行 TCNs，同时利用视听信息，通过跨验证来充分利用数据和缓解过度拟合，并使用交界面关注机制来强调视觉模态和利用嘈杂的听觉模态。在测试集中，本文的方法在 valence 和 arousal 方面通过了 CCC 测试，相较于其他方法有明显的准确度提升。

Jul, 2021

矩阵故障！基于内容驱动的音视频伪造检测与定位的大规模基准测试

本文提出了一种用于检测 Deepfake 的方法，它通过提出包含多种模式的策略内容驱动音频、视觉和音视频混合进行识别。并通过定量分析证明了 BA-TFD + 算法再 Deepfake 检测方面的优越性。

May, 2023

身份验证任务中音频 - 视觉融合架构的行为分析

我们训练了一个身份验证架构，并评估了该模型合并音频和视觉表示的部分的修改，包括在要比较的两个示例中的任何一个输入缺失的情况下。我们在 Voxceleb1-E 测试集上报告的结果表明，在全模态设置和一个单模态缺失时，对输出嵌入进行平均可以改善错误率，并更充分地利用嵌入空间，这比使用共享层的系统更具优势，并讨论了可能的原因。

Nov, 2023

2022 远场说话人验证挑战赛的 SpeakIn 说话人验证系统

本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022（FFSVC2022）任务一和任务二的讲话者验证（SV）系统。我们采用基于 ResNet 和 RepVGG 的架构，采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集，创新性地提出了分阶段迁移学习方法来提高模型性能，解决了领域不匹配问题，并在两个挑战任务中表现出优异的性能。

Sep, 2022

面向动态音视情境的目标感知时空推理问题回答

本研究提出了一种针对音视频问答（AVQA）任务的目标感知联合时空基础网络，利用三种模态的一致性损失实现了问题感知的时空基础，增加了音频 - 视觉互动，采用了单一流结构中的融合方法，在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。

May, 2023

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022