May, 2023

双重文本图像指示下的多模式程序规划

TL;DR研究了利用图文混合信息来辅助人类完成任务的方法,提出了基于多模态程序规划的任务,使用基于大型语言模型的有提示和图片描述提示的方法可以生成具有信息性和准确性的图文混合任务规划。