Jun, 2022

骨干部分融合的粗到精视觉 - 语言预训练

TL;DRFIBER 是一个用于 Vision Language(VL)的新型 VL 模型结构,通过将交叉注意力插入图像和文本骨干网络,将多模态融合深入到模型中,并使用两阶段预训练策略,可以在 VL 任务中提供一致的性能提升。