Jun, 2022
骨干部分融合的粗到精视觉 - 语言预训练
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone
Zi-Yi Dou, Aishwarya Kamath, Zhe Gan, Pengchuan Zhang, Jianfeng Wang...
TL;DRFIBER 是一个用于 Vision Language(VL)的新型 VL 模型结构,通过将交叉注意力插入图像和文本骨干网络,将多模态融合深入到模型中,并使用两阶段预训练策略,可以在 VL 任务中提供一致的性能提升。