Aug, 2024

基于视觉语言模型的多智能体规划

TL;DR本研究解决了大型语言模型和视觉语言模型在需要同时进行规划和感知时,因融合多模态信息而导致表现不佳的问题。提出了一种基于单张环境图像的多智能体架构,利用常识知识进行自由形式域的处理,并引入新的全自动评估程序PG2S,以更好地评估规划质量。研究表明,该方法在使用ALFRED数据集时优于现有的KAS指标。