Dec, 2022

跨模态注意力一致性正则化用于视觉语言关系对齐

TL;DR通过跨模态注意力实现多模态视觉语言模型中的关系级对齐,进而改进现有最优方法并克服了标准测评指标中的组合泛化困境。