Dec, 2022

定位与语义:语言如何促进视觉表征学习?

TL;DR我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征,在广泛的任务范畴内评估学习表征的质量,发现视觉 - 语言模型更适合标签预测任务,而仅视觉模型更适合需要更多局部信息的密集预测任务,同时指出语言有利于视觉模型更好地学习语义,但不利于定位。