LLaMA:开放高效的基础语言模型
本研究旨在通过在大规模语言模型的基础上加强中文语义理解能力来解决其部署困难和开放性挑战,提出了 LLaMA 和 Alpaca 大规模语言模型,通过在中文数据集上进行预训练和指令微调,使其可以更好地执行指令,并通过 GitHub 开源该项目,为开放研究提供了基础资源。
Apr, 2023
我们提出了 Llemma 这个大型数学语言模型,通过将 Code Llama 进行预训练得到了 Llemma,并在 MATH 基准测试中表现优于所有已知的开源基础模型,同时还能进行工具使用和形式定理证明而无需进一步微调。
Oct, 2023
发布了 Code Llama,这是一套基于 Llama 2 的大型代码语言模型,在开源模型中具有最先进的性能、填充能力、大尺寸输入上下文支持以及无人操作编程任务的指令跟随能力。
Aug, 2023
我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练,我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上,我们的模型在大多数常规任务上均取得了一致的改进,并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是,通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程,70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果,我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码,并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是达到强大性能的关键,我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。
Sep, 2023
Falcon 系列是一个先验量最大且质量最好的语言模型之一,通过预培训和多种工具的使用,Falcon-180B 在性能上超过了其他模型,使用更低的成本接近 PaLM-2-Large 模型的表现。
Nov, 2023
通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型,本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练,以保证计算可行性和模型的稳健性。此外,我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码,进一步强调我们对开放研究的承诺,促进语言建模领域的进一步创新。
Nov, 2023
Baichuan 2 是一系列大规模多语言语言模型,包含 70 亿和 130 亿参数,从头开始训练,共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能,如 MMLU、CMMLU、GSM8K 和 HumanEval,此外,Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点,以便研究界更好地理解 Baichuan 2 的训练动态。
Sep, 2023
本研究通过评估和比较各种闭源和开源大型语言模型,探讨如何有效构建用于实际应用的会议摘要系统。研究结果表明,大多数闭源模型在性能方面更好,但即使在零 - shot 情况下,较小的开源模型如 LLaMA-2(7B 和 13B)仍可达到与大型闭源模型相当的性能。综合考虑闭源模型的隐私问题和使用经过微调的闭源模型的高成本,能够取得竞争性性能的开源模型更适合工业应用。在性能、成本和隐私问题之间取得平衡,LLaMA-2-7B 模型在工业应用中更具前景。总之,本文提供了使用大型语言模型进行实际业务会议摘要的实用见解,突显性能和成本之间的权衡。
Oct, 2023
AstroLLaMA 是一个从 LLaMA-2 微调而来的 70 亿参数模型,通过使用 arXiv 上的 30 万篇天文学摘要进行微调,优化传统的因果语言建模,在困惑度上比 Llama-2 低 30%。尽管参数数量显著较少,我们的模型生成的文本补全和嵌入提取比当前的基础模型更富有见解和科学相关性。AstroLLaMA 作为一个具有广泛微调潜力的稳健的领域专用模型,其公开发布旨在推动天文学研究,包括自动论文摘要和对话系统开发。
Sep, 2023
对 7 和 13 亿规模的大型语言模型 (Large Language Models, LLMs) 进行了性能评估,经过量化处理后在家用硬件上运行。通过包含 1,006 个巴西国家中学考试 (ENEM) 问题的数据库进行模型效果评估,最佳模型对原文葡萄牙语问题和其英文翻译的准确性分别达到约 46% 和 49%。此外,通过执行时间衡量模型的计算效率,7 和 13 亿规模的 LLMs 分别在装备 AMD Ryzen 5 3600x 处理器的机器上平均需要大约 20 秒和 50 秒来处理查询。
Sep, 2023