Dec, 2022
跨模态注意力一致性正则化用于视觉语言关系对齐
Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment
Rohan Pandey, Rulin Shao, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency
TL;DR通过跨模态注意力实现多模态视觉语言模型中的关系级对齐,进而改进现有最优方法并克服了标准测评指标中的组合泛化困境。