Oct, 2023

LoHoRavens: 一项长视程语言引导的机器人桌面操纵基准

TL;DR本研究基于体验工具人和大型语言模型的融合,在长时序任务中通过引入颜色、尺寸、空间、算术和参考等多个方面的推理来进行桌面操作,提出了一个模拟基准测试过程,同时探索通过标题生成和可学习接口来弥合模态差距,以改进当前流行模型在长时序桌面操作任务中的表现。