EMNLPDec, 2021

视觉语言理解的蒸馏双编码模型

TL;DR提出了一种跨模态关注蒸馏框架来训练双编码器模型,以用于视觉语言理解任务,如视觉推理和视觉问答,并证明使用这种框架可以在保持比融合编码器模型更快的推理速度的同时实现竞争性的性能表现。