Jun, 2021
探究跨模态:自注意力视觉解析用于视觉语言预训练
Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training
TL;DR通过提出的全Transformer模型进行视觉-语言预训练(VLP),采用Inter-Modality Flow(IMF)指标和遮盖特征回归(MFR)优化机制来增强视觉关系和视觉-语言分析,同时在各种视觉语言任务中取得了明显的最佳性能。