双重文本图像指示下的多模式程序规划

May, 2023

双重文本图像指示下的多模式程序规划

Multimodal Procedural Planning via Dual Text-Image Prompting

Yujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang...

TL;DR研究了利用图文混合信息来辅助人类完成任务的方法，提出了基于多模态程序规划的任务，使用基于大型语言模型的有提示和图片描述提示的方法可以生成具有信息性和准确性的图文混合任务规划。

Abstract

embodied agents have achieved prominent performance in following human instructions to complete tasks. However, the potential of providing instructions informed by texts and images to assist humans in completing tasks remains underexplored. To uncover this capability, we present the mu

embodied agents multimodal procedural planning text-image prompting large language models task completion

发现论文，激发创造

基于记忆的时序提示交互方法用于文本 - 图像分类

我们提出了一种受人类记忆策略启发的新型基于提示的多模态交互策略，通过在中间层上相互作用提示向量以实现足够的信息交换，同时具有压缩的可训练参数和内存使用，取得了具有竞争力的结果。

Jan, 2024

m3P: 走向多模多语翻译与多模提示

通过引入视觉语境作为通用的语言无关表示来促进多语言翻译的方法，该方法利用多模态提示来指导多模态多语言神经机器翻译，在低资源和大规模多语言场景下改善了翻译质量。

Mar, 2024

通过预训练和多任务微调掌握多模态机器人操作

通过引入一个有效的框架，从多任务的专家轨迹中学习使用多模式提示进行机器人操作，我们在 VIMA-BENCH 上评估了方法的功效，并建立了一个新的最先进水平（成功率提高了 10%）。此外，我们还展示了我们的模型具有显著的情境学习能力。

Oct, 2023

使用提示进行多模态视觉理解，实现图像语义信息的解耦

通过对多模式图像使用提示来提高图像的语义理解能力，将视觉与语言处理相结合，以生成更准确的预测和识别图像，并通过提供更强大的图像表示来改进单模态模型，这是一个有前途的研究领域。

May, 2023

基于文本数据的图像标题生成与交互提示

TIPCap 是一种基于文本数据的交互提示的图像标题生成方法，通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异，并在生成标题之前引入可选的提示信息，优于其他弱监督或无监督的图像标题生成方法，并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。

Mar, 2024

多提示与深度分割的跨模态学习

本研究提出了分区多模态提示方法（PMPO），将软提示从单个可学习提示扩展到多个提示，以捕获视觉表示的分层上下文深度。此外，我们结合手动设计的模板和可学习的多提示，以提高方法的泛化能力，并在新类别概括、跨数据集评估和领域泛化等三项具有挑战性的任务上验证了它的有效性。

May, 2023

为什么只用文本：用多模态提示增强视觉与语言导航

Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, showing improved navigation performance through the use of multi-modal and visual prompts.

Jun, 2024

Instruction-ViT: ViT 中用于指令学习的多模态提示

本篇论文研究了采用提示（prompt）对图片进行分类的方法，通过引入多模质询与 fine-tuning 相结合的方式，提高了图片分类的性能和领域适应性。

Apr, 2023

探索视觉提示在多模态大型语言模型中的可转移性

通过 Transferable Visual Prompting (TVP) 这一新方法，在只对一个模型进行训练的情况下，有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能，以提高其在下游任务中的应用能力。

Apr, 2024

多模式提示下的用户友好定制生成

本文提出了一种方法，用户只需提供每个定制主题的图像和文本，而不需要提供多张图像，通过引入 “多模态提示” 概念，将文本和图像相结合，简化用户交互，实现对对象和场景的精确定制。该方法在用户友好性和使用友好输入定制复杂对象方面超过了现有的基于微调方法。

May, 2024