SCITUNE：使用科学多模式指令对齐大型语言模型

Jul, 2023

SCITUNE：使用科学多模式指令对齐大型语言模型

SCITUNE: Aligning Large Language Models with Scientific Multimodal Instructions

Sameera Horawalavithana, Sai Munikoti, Ian Stewart, Henry Kvinge

TL;DR本研究提出了 SciTune 框架，通过调整 Large Language Models，与科学学科，概念和目标相符合，提高 LLMs 的理解科学多模态指令的能力，并通过 ScienceQA 基准测试表明，与仅使用机器生成数据调整的模型相比，LLaMA-SciTune 在各个子类别上均优于人类表现。

Abstract

instruction finetuning is a popular paradigm to align large language models (LLM) with human intent. Despite its popularity, this idea is less explored in improving the LLMs to align existing foundation models wi

instruction finetuning large language models scitune scientific multimodal instructions llama-scitune

发现论文，激发创造

指令调整将 LLMs 对齐到人脑

指导调优对大型语言模型（LLMs）进行调优的普遍方法，能够使其生成更接近自然语言查询的人类响应的输出，在许多情况下在各种测试中实现人类水平的性能。然而，指导调优是否真正使 LLMs 更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对 LLM-human 相似性的影响：(1) 大脑对齐，即 LLM 内部表示与人类语言系统的神经活动相似度，(2) 行为对齐，即 LLM 和人类在阅读任务上的行为相似度。我们评估了 25 个原始版本和经过指导调优的 LLMs 在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均 6％，但对行为对齐没有类似效果。为了确定影响 LLM-brain 对齐的因素，我们计算了 LLMs 的大脑对齐与各种模型特性之间的相关性，如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是，我们发现大脑对齐和模型大小（r = 0.95）以及需要世界知识的任务的表现（r = 0.81）之间存在强正相关。我们的结果表明，指导调优 LLMs 可以改善世界知识表示和大脑对齐，这表明在 LLMs 中编码世界知识的机制也可以改善与人类大脑的表征对齐。

Dec, 2023

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

CITING：大型语言模型为指导调整课程创作

利用人工智能模型替代人类作为教师，通过研究生成学生成绩的修订，构建了 Curriculum Instruction TunING (CITING) 方法，提高了大型语言模型的表达、深度和全面性能，在 GPT-4 评估上取得了 79.4% 的胜率。

Oct, 2023

视觉语言指导调整：综述与分析

通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾，我们总结出高质量图像语言调整数据的特点，构建了完整的数据收集、指令生成和质量控制模块的构建流水线，并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整，并通过相应的度量指标进行了大量实验，以论证本文提出的构建原则的合理性。

Nov, 2023

BioInstruct: 大型语言模型用于生物医学自然语言处理的指令调整

LLMs 在自然语言处理任务中取得了巨大成功，但在生物医学领域的指令却只有少数发布。为了解决这个问题，我们介绍了 BioInstruct，一个包含超过 25000 个示例的定制任务特定指令数据集。通过使用 BioInstruct 数据集对 LLMs 进行微调，我们旨在优化 LLM 在生物医学自然语言处理（BioNLP）领域的性能。我们在 BioNLP 应用中对 LLaMA LLMs（1＆2，7B＆13B）进行了指令调优，并评估了它们的信息提取、问答和文本生成能力。我们还使用多任务学习原则评估了指令对模型性能的贡献。

Oct, 2023

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

AlpaCare：针对医疗应用进行指导调优的大型语言模型

通过 fine-tune LLaMA 系列模型使用 52k 多样化的、机器生成的医疗指令数据 MedInstruct-52k，得到模型 AlpaCare，研究对比了 AlpaCare 与以往指令调整模型在医学和一般领域中的医疗能力和通用性，结果显示 AlpaCare 在医学和一般领域中具有较强的医学能力和通用性。

Oct, 2023

Instruct-Align：基于对齐的跨语言教学，教授 LLMs 的新语言

本研究提出了 Instruct-Align 框架，通过对称对齐方法的跨语言指导调整，使大语言模型 (LLMs) 能够有效地学习新语言，同时通过经验重现防止灾难性遗忘，并能将低资源语言纳入到现有的 LLMs 中。

May, 2023

大型语言模型的指导调整：一项调研

对于指令调优（IT）领域的研究进行了概述，它是增强和可控大型语言模型（LLMs）能力的关键技术。该研究系统回顾了 IT 的一般方法论、IT 数据集的构建、IT 模型的训练以及不同模态、领域和应用的应用，并分析了影响 IT 结果的因素（例如，指令输出的生成、指令数据集的大小等）。还审查了 IT 存在的潜在问题以及对其的批评，指出了现有策略的不足之处，并提出了一些有益的研究方向。

Aug, 2023

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023