Aug, 2023

不需重训练的扩展冻结视觉 - 语言模型:朝着改进机器人感知能力迈进

TL;DR通过对齐不同类型嵌入空间的方法,本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果,从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。