从静态到动态:大型语言模型的持续学习框架
该论文调研了关于大型语言模型(LLMs)的持续学习方面的最新工作,提出了一种新颖的多阶段分类方案,涉及持续预训练、指令调整和对齐;对 LLMs 的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比;同时,在讨论基准和评估的基础上,提出了几个挑战和未来工作方向。
Feb, 2024
MindLLM 是一系列双语轻量级大型语言模型,通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验,并介绍了适用于较小模型的创新指令调整框架,同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。
Oct, 2023
MEMORYLLM 是一个自我更新且具有信息记忆能力的模型,它通过在 transformer 的潜在空间中引入固定大小的内存池,能够有效地整合新知识并保持长期信息记录能力,同时维持操作性完整性。
Feb, 2024
通过引入动态决策框架,将大型语言模型 (Large language models, LLMs) 自主选择快速和缓慢推理方法,以优化效率和有效性,实验结果表明 DynaThink 相较基线方法在五个常见推理基准上更优越。
Jul, 2024
预训练的大型语言模型(LLMs)在进行零 - shot 任务(包括时间序列预测)时表现出惊人的效果,本文研究了 LLMs 在从事受物理规律控制的动力系统情景下外推行为的能力,结果显示 LLaMA2 在无需微调或提示工程的情况下能准确预测动力系统时间序列,此外,学习到的物理规律的准确性随输入环境窗口长度的增加而增加,揭示了一种上下文版本的神经缩放定律,并提出了一种灵活高效的算法,可直接从 LLMs 中提取多位数的概率密度函数。
Feb, 2024
该研究引入了可扩展语言模型(SLM)来解决现有方法在实际应用中遇到的限制和挑战,通过联合自适应重参数化(JARe)和动态任务相关知识检索(DTKR),实现了语言模型的自适应调节,从而在广泛的应用领域中实现了有效的持续学习。
Apr, 2024
提出 ChatFlow 模型,通过跨语言迁移实现了大规模中文语言模型的高性能训练,包括大型语料库的收集与资源的利用、对齐跨语言表示以促进知识转移、使用动态数据采样器渐进式地将模型从无监督预训练过渡到有监督微调,实验证明了该方法在加速模型收敛和取得优越性能方面的优势。
May, 2024
在本文中,我们通过提出评估大型语言模型在动态图中的时空理解能力的 LLM4DyG 基准,第一次系统地评估了 LLMs 在动态图中的时空信息理解能力,并通过广泛的实验分析了不同的数据生成器、数据统计、提示技术和 LLMs 对模型性能的影响。我们提出了一种名为 Disentangled Spatial-Temporal Thoughts (DST2) 的方法,用于增强 LLMs 在动态图中的时空理解能力。我们的主要观察是:1)LLMs 在动态图中具有初步的时空理解能力,2)随着图大小和密度的增加,动态图任务对 LLMs 的难度增加,但对时间跨度和数据生成机制不敏感,3)我们提出的 DST2 提示方法可以帮助提高 LLMs 在动态图中的时空理解能力。此外,数据和代码将在发布时开源。
Oct, 2023
探讨了大型语言模型(LLMs)的认知动态及其在认知模拟方面的潜力,并提出了一个衡量 LLMs 认知动态的新基准 CogBench 和一个名为 CogGPT 的创新性迭代认知机制。通过实验证明,CogGPT 在持续信息流下促进专门角色的认知动态方面相较现有方法表现出显著优势。
Jan, 2024