Jul, 2024

可视提示引导下的作用感知强化学习

TL;DR利用视觉语言模型(VLMs)定义的密集奖励,增强了自主强化学习的采样效率,并能够在在线微调步骤中成功完成自然语言描述的真实世界操纵任务。