Jun, 2021

探究跨模态:自注意力视觉解析用于视觉语言预训练

TL;DR通过提出的全Transformer模型进行视觉-语言预训练(VLP),采用Inter-Modality Flow(IMF)指标和遮盖特征回归(MFR)优化机制来增强视觉关系和视觉-语言分析,同时在各种视觉语言任务中取得了明显的最佳性能。