Oct, 2023

Apollo:多模式无需标注的零 - shot 推理与多专家

TL;DR我们提出了一个模块化框架,利用不同模态和领域中不同基础模型的专业知识,以执行一个单一、复杂的多模态任务,无需依赖提示工程或量身定制的多模态训练。我们的方法实现了分散的命令执行,使每个模型能够同时贡献和受益于其他模型的专业知识。我们的方法可以扩展到各种基础模型(包括音频和视觉),不仅限于语言模型,因为它不依赖于提示。我们在两个任务上演示了我们的方法。在众所周知的样式化图像字幕任务中,我们的实验表明我们的方法优于半监督最先进模型,同时具备零 - shot 能力,避免了昂贵的训练、数据收集和提示工程。我们进一步在一个新颖的任务上演示了这个方法,即音频感知图像字幕,在这个任务中,给定图像和音频,任务是在提供的音频语境中生成描述图像的文本。我们的代码可在 GitHub 上找到。