EMNLPOct, 2020

MMFT-BERT:基于 BERT 编码的多模态融合转换器用于视觉问答

TL;DRMMFT-BERT 是一种多模态融合 Transformer 网络,利用 BERT 编码技术在视频和文本上进行数据处理,并通过新型的 Transformer 融合方法实现多模态输入的组合,该方法在 TVQA 数据集上取得了 SOTA 结果。