MM-REACT: 多模态推理与行动的 ChatGPT 提示
本文提出了一个评估 ChatGPT 等交互式 LLM 的框架,使用公开数据集进行多任务、多语言和多模态方面的评估,发现 ChatGPT 能够生成多模态内容,但是其推理能力较差,存在幻觉问题,但通过 “提示工程” 可以与人类协作,提高性能。
Feb, 2023
通过使用语言模型提示,我们提出了新一代机器人可以通过使用机器人模态语言模型(MLM)单独独立地与特定的机器人模态进行通信。一个中央任务模态通过大型语言模型(LLM)中介整个通信过程以执行机器人任务。我们将这种新的机器人设计模式命名为 Prompting Robotic Modalities(PRM),并在一个新的机器人框架 ROSGPT_Vision 中应用了这种 PRM 设计模式。ROSGPT_Vision 通过仅使用两个提示(一个视觉提示和一个 LLM 提示)来执行机器人任务,实现了处理视觉数据、做出明智决策和自动执行操作的能力。
Aug, 2023
该研究提出了名为 MultiModal-GPT 的视觉与语言模型,可以利用证据和语言数据对多模式指令进行调整,为模型的不断对话提供支持,同时提出了联合培训的观点,并通过各种演示展示了 MultiModal-GPT 的连续对话能力。
May, 2023
使用名为 ReAct 的方法,在大型语言模型中交错生成推理迹线和任务特定的操作,以促进两者之间的协作,从而在多项语言理解和决策任务中提高其有效性,同时优于缺乏推理或行为组件的方法。
Oct, 2022
本文介绍了 Multi-modal Multiple Appropriate Facial Reaction Generation Challenge(REACT2023)以及其目的、数据集和基准系统的性能表现。
Jun, 2023
通过机器学习模型在 REACT 2024 挑战中开发和基准测试了能够生成多个适当、多样、真实和同步的面部反应的方法,并提供了该挑战的指南、数据集以及在两个子挑战中基线系统的性能。
Jan, 2024
大型语言模型的多模态内容理解和推理能力取得了令人印象深刻的成果,我们提出了一种名为 POEM 的视觉分析系统,以促进对 LLMs 的多模态推理性能的有效提示工程。该系统支持用户通过多样化的示例和指导原则,循环迭代地设计和改进提示,以实现模型知识与人类洞察力的更好对齐和增强。通过两个案例研究和专家访谈验证了我们系统的有效性和高效性。
Jun, 2024
通过研究 GPT-4V (ison),我们发现多模态模型在推荐任务中的潜力,并证明了 GPT-4V 具有出色的零 - shot 推荐能力,同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型,以提供更多样性和互动性,从而增强用户体验。
Nov, 2023
通过对输入提示的系统变化进行敏感性分析,我们发现 LLMs 的性能受到例示 - 查询相似度的影响,并且推理能力源于近似检索,而非内在推理能力。
May, 2024