Jun, 2023

QuAVF: 面向 Ego4D Talking to Me 挑战的音视频融合质量感知技术

TL;DR本文介绍了 QuAVF@NTU-NVIDIA 团队在 Ego4D Talking to Me (TTM) Challenge 2023 中的参赛作品,该作品利用两个模型处理输入视频和语音,通过面部质量分数过滤嘈杂的面部输入数据并实现质量感知融合,取得了 67.4%的均值精度 (mAP) 的最优结果。