ECCVJun, 2023

Switch-BERT: 通过切换注意力和输入来学习建模多模态交互

TL;DR本文提出了一种名为 Switch-BERT 的多模态机器学习模型,它通过引入可学习的分层和交叉层交互来优化注意力集合,从而解决了多样输入模态和固定结构下的模态不匹配问题,实现了良好的视觉问答、图像文本检索和指代表达理解等任务的性能。