Socratic 模型：用语言组成零样本多模态推理

Apr, 2022

Socratic 模型：用语言组成零样本多模态推理

Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language

Andy Zeng, Maria Attarian, Brian Ichter, Krzysztof Choromanski, Adrian Wong...

TL;DR本文提出了 Socratic Models（SM）框架，该框架可用于将多个大型预训练模型组合为一体，以实现对多模式数据的交换和新的多模式应用成果。

Abstract

Large pretrained (e.g., "foundation") models exhibit distinct capabilities depending on the domain of data they are trained on. While these domains are generic, they may only barely overlap. For example, visual-language models (VLMs) are trained on Internet-scale image captions, but

large pretrained models visual-language models large language models socratic models multimodal capabilities

发现论文，激发创造

教小型语言模型如何推广到未见过的组合问题

我们在本文中提出了一种通过多任务监督预训练和密集检索系统的组合来实现对具有挑战性的复合问题的泛化的方法，并且展示了通过添加用于训练的检索增强数据集可以显著提高模型的性能。

Aug, 2023

大型语言模型中常识知识的系统调查

本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估，旨在更好地理解这种模型学习常识知识的程度，结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。

Oct, 2021

基于预训练模型的模块化零样本视觉问答

本文探讨如何利用预训练模型来支持零样本视觉问答，通过模块化的零样本网络将问题分解成子理性步骤，并将子任务分配给适当的预训练模型以实现更好的可解释性。实验表明，我们的方法比其他基线方法更具有效性和可解释性。

May, 2023

基于知识驱动的数据构建在常识问答中的零样本评估

本文提出了一种基于神经符号框架的零样本问题回答方法，利用预训练模型的外部知识资源，获得了在不同任务中的一致性提升，并且在任务结构保持的同时还生成了公平和信息丰富的问题，从而提高了语言模型的学习效果。

Nov, 2020

大型语言模型是零样本推理器

该研究发现预训练的大型语言模型可以成为良好的零样本推理器，提出了一种零样本的 CoT 方法，将其用于多种复杂的推理任务并取得了显著的性能提升。

May, 2022

Apollo：多模式无需标注的零 - shot 推理与多专家

我们提出了一个模块化框架，利用不同模态和领域中不同基础模型的专业知识，以执行一个单一、复杂的多模态任务，无需依赖提示工程或量身定制的多模态训练。我们的方法实现了分散的命令执行，使每个模型能够同时贡献和受益于其他模型的专业知识。我们的方法可以扩展到各种基础模型（包括音频和视觉），不仅限于语言模型，因为它不依赖于提示。我们在两个任务上演示了我们的方法。在众所周知的样式化图像字幕任务中，我们的实验表明我们的方法优于半监督最先进模型，同时具备零 - shot 能力，避免了昂贵的训练、数据收集和提示工程。我们进一步在一个新颖的任务上演示了这个方法，即音频感知图像字幕，在这个任务中，给定图像和音频，任务是在提供的音频语境中生成描述图像的文本。我们的代码可在 GitHub 上找到。

Oct, 2023

SeqZero：使用序列提示和零 - shot 模型进行少样本组合语义分析

SeqZero 提出了一种基于分解子问题的 few-shot 语义分析方法，通过使用预训练语言模型生成简短答案，避免在一次生成长的规范化语句的过程中遗忘预先的知识，同时利用零 - shot 模型来减轻过拟合的问题，并结合了一种约束重缩放的方法，取得了 BART-based 模型在 GeoQuery 和 EcommerceQuery 上的 SOTA 表现。

May, 2022

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

基于多个知识图谱的模块化迁移学习用于零样本常识推理

本文提出一种模块化的知识聚合的零 - shot 常识推理框架，可以在多个不同的知识图谱中应用，提高了常识推理性能。

Jun, 2022

主动协作框架：零样本多模态医学推理的查询、交互和集成

我们提出了一个多模态医疗协作推理框架 MultiMedRes，通过学习者代理从领域特定专家模型获取必要信息来解决医疗多模态推理问题，并在 X 射线图像的区别视觉问答任务中验证了方法的有效性。

May, 2024