Socratic 模型:用语言组成零样本多模态推理
我们在本文中提出了一种通过多任务监督预训练和密集检索系统的组合来实现对具有挑战性的复合问题的泛化的方法,并且展示了通过添加用于训练的检索增强数据集可以显著提高模型的性能。
Aug, 2023
本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估,旨在更好地理解这种模型学习常识知识的程度,结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。
Oct, 2021
本文探讨如何利用预训练模型来支持零样本视觉问答,通过模块化的零样本网络将问题分解成子理性步骤,并将子任务分配给适当的预训练模型以实现更好的可解释性。实验表明,我们的方法比其他基线方法更具有效性和可解释性。
May, 2023
本文提出了一种基于神经符号框架的零样本问题回答方法,利用预训练模型的外部知识资源,获得了在不同任务中的一致性提升,并且在任务结构保持的同时还生成了公平和信息丰富的问题,从而提高了语言模型的学习效果。
Nov, 2020
我们提出了一个模块化框架,利用不同模态和领域中不同基础模型的专业知识,以执行一个单一、复杂的多模态任务,无需依赖提示工程或量身定制的多模态训练。我们的方法实现了分散的命令执行,使每个模型能够同时贡献和受益于其他模型的专业知识。我们的方法可以扩展到各种基础模型(包括音频和视觉),不仅限于语言模型,因为它不依赖于提示。我们在两个任务上演示了我们的方法。在众所周知的样式化图像字幕任务中,我们的实验表明我们的方法优于半监督最先进模型,同时具备零 - shot 能力,避免了昂贵的训练、数据收集和提示工程。我们进一步在一个新颖的任务上演示了这个方法,即音频感知图像字幕,在这个任务中,给定图像和音频,任务是在提供的音频语境中生成描述图像的文本。我们的代码可在 GitHub 上找到。
Oct, 2023
SeqZero 提出了一种基于分解子问题的 few-shot 语义分析方法,通过使用预训练语言模型生成简短答案,避免在一次生成长的规范化语句的过程中遗忘预先的知识,同时利用零 - shot 模型来减轻过拟合的问题,并结合了一种约束重缩放的方法,取得了 BART-based 模型在 GeoQuery 和 EcommerceQuery 上的 SOTA 表现。
May, 2022
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023
我们提出了一个多模态医疗协作推理框架 MultiMedRes,通过学习者代理从领域特定专家模型获取必要信息来解决医疗多模态推理问题,并在 X 射线图像的区别视觉问答任务中验证了方法的有效性。
May, 2024