Jun, 2021

探究跨模态:自注意力视觉解析用于视觉语言预训练

TL;DR通过提出的全 Transformer 模型进行视觉 - 语言预训练(VLP),采用 Inter-Modality Flow(IMF)指标和遮盖特征回归(MFR)优化机制来增强视觉关系和视觉 - 语言分析,同时在各种视觉语言任务中取得了明显的最佳性能。