CVPRApr, 2019

音频 - 视觉场景感知对话的简单基线

TL;DR本文提出了一种基于数据驱动学习的音视频感知对话基准方法,采用注意力机制从海量传感器中区分实用信号和干扰信号,实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。