SCITUNE:使用科学多模式指令对齐大型语言模型
指导调优对大型语言模型(LLMs)进行调优的普遍方法,能够使其生成更接近自然语言查询的人类响应的输出,在许多情况下在各种测试中实现人类水平的性能。然而,指导调优是否真正使 LLMs 更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对 LLM-human 相似性的影响:(1) 大脑对齐,即 LLM 内部表示与人类语言系统的神经活动相似度,(2) 行为对齐,即 LLM 和人类在阅读任务上的行为相似度。我们评估了 25 个原始版本和经过指导调优的 LLMs 在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均 6%,但对行为对齐没有类似效果。为了确定影响 LLM-brain 对齐的因素,我们计算了 LLMs 的大脑对齐与各种模型特性之间的相关性,如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是,我们发现大脑对齐和模型大小(r = 0.95)以及需要世界知识的任务的表现(r = 0.81)之间存在强正相关。我们的结果表明,指导调优 LLMs 可以改善世界知识表示和大脑对齐,这表明在 LLMs 中编码世界知识的机制也可以改善与人类大脑的表征对齐。
Dec, 2023
大语言模型(LLMs)在单个查询中难以遵循一系列指令,从而可能忽略或错误解释其中的一部分,这影响了它们在需要多个中间步骤的复杂问题(例如多语言(翻译然后回答)和多模态(字幕然后回答)任务)中的性能。我们通过使用开源 LLMs(如 LLaMA-2 70B 和 Mixtral-8x7B)进行实证验证。针对当今数据中顺序指令的稀缺性,我们提出了顺序指令调整,这是一种简单而有效的策略,用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务,我们发现,顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术,我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。
Mar, 2024
利用人工智能模型替代人类作为教师,通过研究生成学生成绩的修订,构建了 Curriculum Instruction TunING (CITING) 方法,提高了大型语言模型的表达、深度和全面性能,在 GPT-4 评估上取得了 79.4% 的胜率。
Oct, 2023
通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾,我们总结出高质量图像语言调整数据的特点,构建了完整的数据收集、指令生成和质量控制模块的构建流水线,并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整,并通过相应的度量指标进行了大量实验,以论证本文提出的构建原则的合理性。
Nov, 2023
LLMs 在自然语言处理任务中取得了巨大成功,但在生物医学领域的指令却只有少数发布。为了解决这个问题,我们介绍了 BioInstruct,一个包含超过 25000 个示例的定制任务特定指令数据集。通过使用 BioInstruct 数据集对 LLMs 进行微调,我们旨在优化 LLM 在生物医学自然语言处理(BioNLP)领域的性能。我们在 BioNLP 应用中对 LLaMA LLMs(1&2,7B&13B)进行了指令调优,并评估了它们的信息提取、问答和文本生成能力。我们还使用多任务学习原则评估了指令对模型性能的贡献。
Oct, 2023
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023
通过 fine-tune LLaMA 系列模型使用 52k 多样化的、机器生成的医疗指令数据 MedInstruct-52k,得到模型 AlpaCare,研究对比了 AlpaCare 与以往指令调整模型在医学和一般领域中的医疗能力和通用性,结果显示 AlpaCare 在医学和一般领域中具有较强的医学能力和通用性。
Oct, 2023
本研究提出了 Instruct-Align 框架,通过对称对齐方法的跨语言指导调整,使大语言模型 (LLMs) 能够有效地学习新语言,同时通过经验重现防止灾难性遗忘,并能将低资源语言纳入到现有的 LLMs 中。
May, 2023
对于指令调优(IT)领域的研究进行了概述,它是增强和可控大型语言模型(LLMs)能力的关键技术。该研究系统回顾了 IT 的一般方法论、IT 数据集的构建、IT 模型的训练以及不同模态、领域和应用的应用,并分析了影响 IT 结果的因素(例如,指令输出的生成、指令数据集的大小等)。还审查了 IT 存在的潜在问题以及对其的批评,指出了现有策略的不足之处,并提出了一些有益的研究方向。
Aug, 2023