Dec, 2023

通过多模态部分对齐进行基于视觉信息的 BERT 表示扩展

TL;DR通过将 BERT 模型的上下文表示与视觉信息进行融合,GroundedBERT 方法在语言任务中明显优于基准模型,解决了语言模型在视觉语境处理中的限制问题。