Feb, 2024

从多模态输入中获取语言知识

TL;DR利用 FLAVA 模型进行消融研究,独立变化文本和视觉输入量,发现多模态预训练既不损害模型的语言性能,也没有一致的帮助作用;然而,由于实验规模有限,这些结论还不完全确定,需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。