May, 2023

利用互信息最大化进行视频多模态融合的降噪瓶颈

TL;DR本论文提出了一种细粒度的视频多模态融合去噪模型(DBF),它使用了瓶颈机制来过滤噪声和冗余信息,并采用互信息最大化模块来调节过滤器以保留不同模态中的关键信息。实验表明,我们的 DBF 模型在多个基准测试中均取得了显着的改进效果,涵盖了多模态情感分析和多模态摘要等任务,证明了该模型可以有效地从嘈杂和冗余的视频,音频和文本输入中捕捉到显著特征。