MultiInstruct: 通过指令调整提高多模态零样本学习
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023
通过对自然语言指令模板中的 60 个自然语言处理任务进行调整,我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估,结果表明,通过指令调整,可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。
Sep, 2021
通过自动指令增强方法名 INSTRAUG 的多模态任务中的精调大型语言模型(LLMs)可以在 12 个多模态任务中显著提高多模态大型语言模型(MLLMs)的对齐度,相当于多次扩大训练数据的好处。
Feb, 2024
介绍 InstructDial,一个对话指令优化框架,用于提高 NLP 模型在对话相关任务中的零 Shot 和 few-shot 性能,其中包括 48 个具有多样性的对话任务,使用元任务确保模型遵循指令。
May, 2022
通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾,我们总结出高质量图像语言调整数据的特点,构建了完整的数据收集、指令生成和质量控制模块的构建流水线,并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整,并通过相应的度量指标进行了大量实验,以论证本文提出的构建原则的合理性。
Nov, 2023
本研究系统全面地研究了基于预训练系统的 BLIP-2 视觉语言模型的指导调整方法。通过构建 InstructBLIP 模型和使用指导语音特征提取,该模型在 13 个测试集上全面超越 BLIP-2 和更大的 Flamingo 模型,在单个下游任务的微调中获得了最先进的性能。
May, 2023
通过在图像文本对上进行预训练和在受监督的视觉语言指导数据上进行微调的两阶段训练,多模态大型语言模型实现了其遵循指令的能力。本文介绍了 InstructionGPT-4,该模型在仅包括 200 个示例的小数据集上进行了微调,相当于 MiniGPT-4 对齐数据集中使用的指令遵循数据的约 6%。我们首先提出了几个用于评估多模态指令数据质量的度量标准。基于这些度量标准,我们提出了一种简单而有效的数据选择器,用于自动识别和过滤低质量的视觉语言数据。采用这种方法,InstructionGPT-4 在各种评估(如视觉问答、GPT-4 偏好)上的表现优于原始的 MiniGPT-4。总的来说,我们的研究结果表明,较少但高质量的微调数据能够有效地提高多模态大型语言模型的输出质量。
Aug, 2023
本文介绍了 instruct-imagen 模型,它解决了异质图像生成任务并且可以泛化到未知任务。我们通过引入多模态指导来完成图像生成的任务表示,利用自然语言将不同的模态(如文本、边缘、风格、主题等)融合在一起,使得丰富的生成意图可以以统一的格式标准化。接着,我们通过两阶段的框架,利用预训练的文本到图像扩散模型进行精调来构建 instruct-imagen 模型。在第一阶段,我们利用检索增强训练方法使模型能够在外部多模态上更好地进行生成。随后,我们对不同的需要视觉语言理解的图像生成任务进行精调,每个任务都与一个包含任务本质的多模态指导相匹配。在各种图像生成数据集上进行的人工评估表明,instruct-imagen 在领域内与先前特定任务的模型相媲美甚至超越,并展示了对未知和更复杂任务的有希望的泛化能力。
Jan, 2024