Mar, 2023

MM-REACT: 多模态推理与行动的 ChatGPT 提示

TL;DRMM-REACT 是一种系统范例,将 ChatGPT 与一组视觉专家集成在一起,以实现多模态推理和动作,并引入了文本提示设计,以表示文本描述、已文本化的空间坐标和对齐的文件名来处理多模态信息。