TroL:大规模语言与视觉模型的层遍历
本文详细分析了大型语言模型(LLMs),重点关注自然语言处理中一种重要的开源基础模型 LLaMA。通过设计选择题任务来评估 LLaMA 在高阶任务(如推理和计算)中的内在理解能力。我们水平对比不同大小的模型,垂直评估不同层次的模型,并揭示了基于设计的评估任务的几个关键而不寻常的发现:(1)在水平分析中,扩大模型规模几乎无法自动带来额外的知识或计算能力,但可以增强推理能力,特别是在数学问题解决方面,并有助于减少幻象,但只有超过一定规模阈值才能实现;(2)在垂直分析中,LLaMA 的较低层次缺乏实质性的算术和事实知识,展示了逻辑思维、多语言和认知能力,而顶层具有最大的计算能力和现实世界的知识。
Dec, 2023
通过使用多面手的理由,我们提出了一种新的有效率的 LLVM(Mamba),以提高理解和回答能力,并在多个评估基准中取得了显著的视觉语言性能改进。
May, 2024
通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试,本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。
Nov, 2023
大型语言模型的层之间存在高相似性,某些层对网络功能没有显著作用,因此提出了一种基于层重要性评分的剪枝方法,并且该方法在模型剪枝方面明显优于先前的最新方法,同时与量化等方法相互独立,能进一步减小参数和计算量。
Mar, 2024
本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM,通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理,从而统一了视觉和语言任务的视角,具有不同级别的任务定制能力,成为一种通用的视觉和语言模型。
May, 2023
我们探索了将大型语言模型应用于代码优化。我们提出了一个从头开始训练的 7B 参数的变换器模型,用于优化 LLVM 汇编的代码大小。该模型以未优化的汇编作为输入,并输出一系列最佳优化程序的编译器选项。在训练过程中,重要的是我们要求模型预测优化前后的指令计数和优化后的代码本身。这些辅助学习任务显著提高了模型的优化性能,并增强了模型的理解深度。我们在大量的测试程序上进行评估。我们的方法在减少指令计数方面比编译器的效果提高了 3.0%,超过了需要数千次编译的两个最先进的基线。此外,该模型显示出令人惊讶的强大代码推理能力,91% 的代码可编译,70% 的时间能完美模拟编译器的输出。
Sep, 2023
提出了一种被称为 extit {Layer Collapse (LaCo)} 的简洁的逐层修剪方法,将后置模型层折叠到先前层,实现了模型大小的快速减小而同时保留了模型结构;全面的实验表明,该方法在修剪比例为 25-30% 时保持了超过 80% 的平均任务性能,显著优于现有最先进的结构修剪方法;还进行了后训练实验证实所提出的修剪方法有效继承了原始模型的参数,并从逐层相似性的角度讨论了提出该方法的动机,评估了修剪的大型语言模型在各种修剪比例下的性能。
Feb, 2024
通过跳过 Transformer LLMs 中后面的 attention 子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
VisionLLM v2 是一种端到端的多模态大型模型,它在一个框架中统一了视觉感知、理解和生成。它通过一种名为 “超级链接” 的信息传输机制连接了模型与特定任务解码器,以实现灵活的任务信息传输和梯度反馈,并在多任务场景中解决训练冲突,并通过不同的用户提示实现对多种视觉语言任务的端到端联合训练和泛化,达到与特定任务模型相当的性能。
Jun, 2024
通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到 60 亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
Dec, 2023