MM-REACT: 多模态推理与行动的 ChatGPT 提示

Mar, 2023

MM-REACT: 多模态推理与行动的 ChatGPT 提示

MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action

PDF

Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab...

TL;DRMM-REACT 是一种系统范例，将 ChatGPT 与一组视觉专家集成在一起，以实现多模态推理和动作，并引入了文本提示设计，以表示文本描述、已文本化的空间坐标和对齐的文件名来处理多模态信息。

Abstract

We propose mm-react, a system paradigm that integrates chatgpt with a pool of vision experts to achieve →

mm-react chatgpt multimodal reasoning vision experts textual prompt design

发现论文，激发创造

一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估

本文提出了一个评估 ChatGPT 等交互式 LLM 的框架，使用公开数据集进行多任务、多语言和多模态方面的评估，发现 ChatGPT 能够生成多模态内容，但是其推理能力较差，存在幻觉问题，但通过 “提示工程” 可以与人类协作，提高性能。

Feb, 2023

ROSGPT_Vision：仅使用语言模型提示来指挥机器人

通过使用语言模型提示，我们提出了新一代机器人可以通过使用机器人模态语言模型（MLM）单独独立地与特定的机器人模态进行通信。一个中央任务模态通过大型语言模型（LLM）中介整个通信过程以执行机器人任务。我们将这种新的机器人设计模式命名为 Prompting Robotic Modalities（PRM），并在一个新的机器人框架 ROSGPT_Vision 中应用了这种 PRM 设计模式。ROSGPT_Vision 通过仅使用两个提示（一个视觉提示和一个 LLM 提示）来执行机器人任务，实现了处理视觉数据、做出明智决策和自动执行操作的能力。

Aug, 2023

MultiModal-GPT: 一个视觉语言模型，用于人类对话

该研究提出了名为 MultiModal-GPT 的视觉与语言模型，可以利用证据和语言数据对多模式指令进行调整，为模型的不断对话提供支持，同时提出了联合培训的观点，并通过各种演示展示了 MultiModal-GPT 的连续对话能力。

May, 2023

ReAct: 在语言模型中协同推理与行动

使用名为 ReAct 的方法，在大型语言模型中交错生成推理迹线和任务特定的操作，以促进两者之间的协作，从而在多项语言理解和决策任务中提高其有效性，同时优于缺乏推理或行为组件的方法。

Oct, 2022

REACT2023：第一届多模态多适宜人脸表情生成竞赛

本文介绍了 Multi-modal Multiple Appropriate Facial Reaction Generation Challenge（REACT2023）以及其目的、数据集和基准系统的性能表现。

Jun, 2023

REACT 2024：第二届多目标适应性面部反应生成挑战

通过机器学习模型在 REACT 2024 挑战中开发和基准测试了能够生成多个适当、多样、真实和同步的面部反应的方法，并提供了该挑战的指南、数据集以及在两个子挑战中基线系统的性能。

Jan, 2024

POEM：增强大型语言模型的多模态推理的交互式提示优化

大型语言模型的多模态内容理解和推理能力取得了令人印象深刻的成果，我们提出了一种名为 POEM 的视觉分析系统，以促进对 LLMs 的多模态推理性能的有效提示工程。该系统支持用户通过多样化的示例和指导原则，循环迭代地设计和改进提示，以实现模型知识与人类洞察力的更好对齐和增强。通过两个案例研究和专家访谈验证了我们系统的有效性和高效性。

Jun, 2024

探索 GPT-4V (ision) 的推荐能力：初步案例研究

通过研究 GPT-4V (ison)，我们发现多模态模型在推荐任务中的潜力，并证明了 GPT-4V 具有出色的零 - shot 推荐能力，同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型，以提供更多样性和互动性，从而增强用户体验。

Nov, 2023

MRecGen: 多模态适宜反应生成器

该论文提出了首个多模态人类反应生成框架，可以生成适当和真实的人类风格反应，用于回应用户行为，适用于各种人机交互场景和虚拟代理 / 机器人行为。

Jul, 2023

关于为主动大型语言模型提供反应提示的脆弱基础

通过对输入提示的系统变化进行敏感性分析，我们发现 LLMs 的性能受到例示 - 查询相似度的影响，并且推理能力源于近似检索，而非内在推理能力。

May, 2024