Nov, 2020

多模态表示学习中早期融合的好处

TL;DR该篇论文通过创建卷积 LSTM 网络结构,研究了多模态表示学习中视听融合的早期处理,结果表明,在初始 C-LSTM 层中立即融合音频和视觉输入可以提高网络的性能,使其更能够抵抗白噪声的干扰。