May, 2020
使用视觉表示探究上下文语言模型的共同基础
Probing Text Models for Common Ground with Visual Representations
TL;DR本文通过设计一种探针模型,研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度,并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果,而文本上下文在该过程中发挥了重要作用,但比起人类,具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究,进一步地理解和改善语言模型的视觉能力。