Jul, 2023

多模态平衡感知梯度调控弱监督音视频解析

TL;DR本文提出了一种利用动态梯度调制机制来平衡不同语音和视觉模态特征学习的方法,并设计了一种实现精确测量的模态分离决策单元来处理多模式混淆问题, 实验证明该方法的有效性。