FLM-101B:一种开放的LLM及以10万美元预算训练它的方法
本篇综述论文全面分析了大型语言模型的架构及其分类、训练策略、训练数据集和性能评估,并讨论了未来的研究方向,最后总结了大型语言模型研究的重要发现和关键的架构和训练策略。
Jul, 2023
MindLLM是一系列双语轻量级大型语言模型,通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验,并介绍了适用于较小模型的创新指令调整框架,同时探索了MindLLM在法律和金融等特定垂直领域的应用。
Oct, 2023
在自然语言处理领域中,本研究通过对四个知名的大型语言模型(Llama-2,Falcon,Mistral和Zephyr)进行全面的零样本评估,与最先进的微调模型进行性能比较,评估了大型语言模型在电信领域内的知识和理解能力,并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平,突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。
Feb, 2024
智能缩放模型在降低自然语言处理任务的推理成本方面具有显著的经济效益,通过在多个模型之间进行权衡,可以实现高质量和低成本的结果。
Mar, 2024
使用以预训练大型语言模型(LLM)为基础的LLM2LLM方法,通过数据增强和迭代,显著提高LLM在低数据情况下的性能,优于传统的微调和其他数据增强方法,减少了对数据策划的依赖,为更可扩展和高性能的LLM解决方案铺平了道路。
Mar, 2024
大语言模型(LLMs)代表了人工通用智能的重大进展。本技术报告基于我们之前的Tele-FLM(也称为FLM-2)工作,探讨了两个主要方面:首先,我们讨论了在Tele-FLM-52B上的监督微调(SFT)的观察结果,支持“少即是多”方法用于SFT数据构建;其次,我们展示了从520亿到1020亿,以及到1万亿参数进行模型逐步扩展的最佳实践的实验和分析。我们将开源一个1T模型检查点,即Tele-FLM-1T,以推动进一步的培训和研究。
Jul, 2024
本文解决了当前评价大型语言模型(LLMs)在遵循自然语言指令方面的局限性,主要集中于碎片化的约束和狭窄场景。我们提出了CFBench,一个大规模的综合约束遵循基准,通过1000个样本覆盖200多个真实场景和50多个NLP任务,创新性地构建了约束类型的系统框架。评估结果显示,当前领先的LLMs在约束遵循方面还有显著提升空间,为模型的改进提供了方向。
Aug, 2024
本研究解决了大型语言模型(LLM)在性能优化和资源消耗方面的挑战。通过系统文献综述,提出了多种方法来加快LLM的训练和推理,同时保持准确性。研究表明,可以在不损失性能的情况下,显著降低计算和内存成本,推动LLM的广泛应用。
Sep, 2024