评估视觉语言模型在路径规划中的评估能力
本研究介绍了一个名为VLUE的视觉语言理解评估基准,可用于评估VLP模型的泛化能力和效率-性能权衡。该基准显示了所有VLP模型在处理来自更多文化领域且未在预训练中出现的图像时存在较大的泛化差距,并且衡量VLP模型的效率-性能权衡可为设计选择提供有益见解。
May, 2022
通过ReForm-Eval基准测试,我们对LVLM的各种能力进行了全面的定量评估,发现并分析了现有LVLM的优点和缺点,并确定了潜在的影响因素。
Oct, 2023
大型语言模型在路径规划和空间推理方面取得了显著的成功,少样本的GPT-4通过不同的提示方法在空间推理方面表现出了潜力,而微调的LLMs则在小环境或有障碍物的情况下难以推广。
Oct, 2023
我们介绍了一种名为Robotic Vision-Language Planning (ViLa)的新方法,该方法结合了视觉-语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023
基于大语言模型和视觉变换的视觉语言模型(VLMs)的增长兴趣,我们观察到在VLMs设计中往往存在未经支持的决策,这使得很难确定哪些选择能够提高模型性能,为了解决这个问题,我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验,基于这些实验结果,我们开发了一个8亿参数的高效基础VLM模型
May, 2024
大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉-语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
本研究提出了一种名为DKPROMPT的新型任务规划与执行框架,通过在PDDL中使用领域知识自动化VLM提示,实现在开放世界中进行经典规划,结果显示DKPROMPT在任务完成率方面优于传统规划、纯VLM和其他几个竞争基线。
Jun, 2024
评估了视觉语言模型(VLMs)在空间规划能力方面的不足,并揭示了模型在视觉感知和推理能力上的根本缺陷以及在空间规划任务中的性能下降,为改进VLMs在空间规划方面的能力指明了未来的方向。
Jul, 2024
本研究解决了当前视觉语言模型(VLM)评估中对公平性、多语言能力和毒性等关键方面忽视的问题。通过扩展HELM框架,提出了VHELM方法,综合多种数据集,提供对VLM在视觉感知、知识、推理等9个方面的全面评估。研究发现,专注效率的模型在偏见基准测试中表现不佳,强调了模型评估标准化的重要性。
Oct, 2024
本研究针对传统导航方法中感知、规划和控制之间的隔离问题,提出了VLMnav,一个通过视觉语言模型(VLM)直接选择动作的端到端导航框架。研究发现,VLM在无需微调或导航数据的情况下,能够作为零样本策略应用,大大提高了方法的开放性和可推广性。
Nov, 2024