Jan, 2023

将互联网规模的视觉 - 语言模型化为具体智能体

TL;DR本文提出了一种利用预训练的视觉语言模型(VLMs)来监督具有目的地行动的体验型智能体从而让其学会与不同类别的对象交互的新型方式。通过少量提示和后见之明体验回放(HER)技术,我们可以使体验型智能体学习抽象类别的成员资格以及与特定任务相关的语境,在利用因特网规模的 VLMs 的通用语言基础的同时完成语言建模。