Mar, 2024

词典级对比性视觉引导改进语言建模

TL;DR基于视觉监督的语言学习过程,通过提供词汇信息的早期层表示,兼容多模态的人类语言习得方式,实现了在语言模型中融入视觉基础的潜力。