May, 2023

可访问的指令跟随代理

TL;DRUVLN (Universal Vision-Language Navigation) 是一种新颖的增强型机器翻译指令框架,利用大型语言模型(GPT3)和图像标题模型(BLIP)的新颖组合,将传统的指令跟随代理推广到多语言和低资源语言等复杂领域,将不同语言之间的对齐通过跨模态变压器,对语言指令、视觉观察和动作决策序列进行编码、捕获和传递。