ECCVJun, 2023
Switch-BERT: 通过切换注意力和输入来学习建模多模态交互
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input
Qingpei Guo, Kaisheng Yao, Wei Chu
TL;DR本文提出了一种名为 Switch-BERT 的多模态机器学习模型,它通过引入可学习的分层和交叉层交互来优化注意力集合,从而解决了多样输入模态和固定结构下的模态不匹配问题,实现了良好的视觉问答、图像文本检索和指代表达理解等任务的性能。