Dec, 2023
通过多模态部分对齐进行基于视觉信息的 BERT 表示扩展
Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment
Cong-Duy Nguyen, The-Anh Vu-Le, Thong Nguyen, Tho Quan, Luu Anh Tuan
TL;DR通过将 BERT 模型的上下文表示与视觉信息进行融合,GroundedBERT 方法在语言任务中明显优于基准模型,解决了语言模型在视觉语境处理中的限制问题。