Apollo：多模式无需标注的零 - shot 推理与多专家

Oct, 2023

Apollo：多模式无需标注的零 - shot 推理与多专家

Apollo: Zero-shot MultiModal Reasoning with Multiple Experts

Daniela Ben-David, Tzuf Paz-Argaman, Reut Tsarfaty

TL;DR我们提出了一个模块化框架，利用不同模态和领域中不同基础模型的专业知识，以执行一个单一、复杂的多模态任务，无需依赖提示工程或量身定制的多模态训练。我们的方法实现了分散的命令执行，使每个模型能够同时贡献和受益于其他模型的专业知识。我们的方法可以扩展到各种基础模型（包括音频和视觉），不仅限于语言模型，因为它不依赖于提示。我们在两个任务上演示了我们的方法。在众所周知的样式化图像字幕任务中，我们的实验表明我们的方法优于半监督最先进模型，同时具备零 - shot 能力，避免了昂贵的训练、数据收集和提示工程。我们进一步在一个新颖的任务上演示了这个方法，即音频感知图像字幕，在这个任务中，给定图像和音频，任务是在提供的音频语境中生成描述图像的文本。我们的代码可在 GitHub 上找到。

Abstract

We propose a modular framework that leverages the expertise of different foundation models over different modalities and domains in order to perform a single, complex, multi-modal task, without relying on prompt

modular framework multi-modal task decentralized command execution stylized image captioning audio-aware image captioning

发现论文，激发创造

多模式提示下的零备和少备视频问答

近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战，本研究引入了一种参数高效的方法来解决这些问题，通过结合多模态提示学习和基于 Transformer 的映射网络，在预训练模型的冻结状态下实现。在几个视频问答基准测试中，我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。

Sep, 2023

Socratic 模型：用语言组成零样本多模态推理

本文提出了 Socratic Models（SM）框架，该框架可用于将多个大型预训练模型组合为一体，以实现对多模式数据的交换和新的多模式应用成果。

Apr, 2022

多模态知识对齐与强化学习

本论文提出了一种名为 ESPER 的方法，将仅基于语言的零 - shot 模型扩展到未见过的多模态任务，如图像和音频字幕生成，采用强化学习来无需直接监督地将多模态输入与语言模型生成对齐，实验表明该方法胜过了基线和之前工作的新基准测试。

May, 2022

主动协作框架：零样本多模态医学推理的查询、交互和集成

我们提出了一个多模态医疗协作推理框架 MultiMedRes，通过学习者代理从领域特定专家模型获取必要信息来解决医疗多模态推理问题，并在 X 射线图像的区别视觉问答任务中验证了方法的有效性。

May, 2024

使用统一的多选视角进行零样本自然语言理解

本篇论文提出一种新的零样本学习范式，其适用于任何格式，并适用于一系列语言任务，如文本分类、常识推理、指代消解和情感分析，并将零样本学习转化为多选任务，从而避免大规模生成模型的问题。该方法不仅增加了模型的推广能力，而且显著减少了参数的数量，同时具有高效的训练和部署特点。经实验结果表明，该方法在多个基准测试中表现卓越，且仅使用了 235M 的参数，远小于拥有十亿参数的现有先进模型。

Oct, 2022

多模态基础模型的小样本自适应：综述

多模态模型的少样本适应方法在医学成像等领域仍有待提高，研究者提出了基于提示、适配器和外部知识的三种技术方法，本论文对这些方法进行了综述及对比，并推导出了多模态模型少样本适应的泛化误差界限及相应解决方案。

Jan, 2024

视频对话生成中的多模态语义图协同推理

本文研究了基于视频对话生成，提出一种方法，可以将视频数据集成到预训练语言模型中，通过多模态推理实现各种模态之间的互补信息，实验结果表明，该模型能够在自动和人工评估方面显著优于现有的最先进模型。

Oct, 2022

基于知识驱动的数据构建在常识问答中的零样本评估

本文提出了一种基于神经符号框架的零样本问题回答方法，利用预训练模型的外部知识资源，获得了在不同任务中的一致性提升，并且在任务结构保持的同时还生成了公平和信息丰富的问题，从而提高了语言模型的学习效果。

Nov, 2020

学习组合主题感知专家混合模型用于零样本视频字幕生成

该论文提出了一种基于 TAMoE 模型的零样本视频字幕生成方法，利用外部相关语料库构建出各个活动的主题嵌入向量，从而实现对新活动的描述，具有很强的推广能力。

Nov, 2018

基于常识推理的零样本提示对隐性意图预测和推荐的应用

本文提出了一个多域对话系统的框架，该系统可以自动推断用户话语的隐含意图并使用大型预训练语言模型触发适当的单任务导向机器人以执行任务，此框架能够有效地实现隐式意图和零 - shot 推荐。

Oct, 2022