EMNLPOct, 2020
MMFT-BERT:基于 BERT 编码的多模态融合转换器用于视觉问答
MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering
Aisha Urooj Khan, Amir Mazaheri, Niels da Vitoria Lobo, Mubarak Shah
TL;DRMMFT-BERT 是一种多模态融合 Transformer 网络,利用 BERT 编码技术在视频和文本上进行数据处理,并通过新型的 Transformer 融合方法实现多模态输入的组合,该方法在 TVQA 数据集上取得了 SOTA 结果。