部署开源大型语言模型:性能分析
研究比较了开源的大型语言模型(LLMs),ChatGPT和人工服务(如MTurk)在文本标注任务中的表现。 发现开源LLMs在高效性,透明性,可再现性和数据保护方面具有竞争力,虽然ChatGPT在大多数任务中表现最好,但开源LLMs在特定任务中也有较高的竞争潜力。
Jul, 2023
使用FLORES-200基准测试,我们提供了首个针对204种语言的实验证据和机器翻译成本分析,发现GPT模型在某些高资源语言上接近或超过传统机器翻译模型的性能,但在低资源语言上表现一直落后于传统机器翻译,对于我们覆盖的语言中的84.1%,ChatGPT的翻译能力低于传统机器翻译模型水平。我们的分析表明,语言的资源水平是决定ChatGPT相对翻译能力的最重要特征,并且暗示ChatGPT在低资源语言和非洲语言上处于劣势。
Sep, 2023
通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试,本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。
Nov, 2023
ChatGPT的引入使得大型语言模型(LLM)被广泛应用于解决后续任务,而在此背景下,低成本的LLM培训和部署代表着未来的发展趋势。本文回顾了与这一新兴趋势相一致的大型语言模型培训技术和推理部署技术的演变。在培训方面,讨论了数据预处理、培训架构、预训练任务、并行培训以及与模型微调相关的内容。在推理方面,本文涵盖了模型压缩、并行计算、内存调度和结构优化等主题。它还探讨了LLM的利用并提供了对其未来发展的见解。
Jan, 2024
通过研究扩展定律,我们发现了DeepSeek LLM在两种常用的开源配置下,7B和67B,用于扩展大规模模型的独特发现,并介绍了DeepSeek LLM项目的长期前景。通过创建包含2万亿标记的数据集并不断扩展,来支持预训练阶段。我们在DeepSeek LLM基础模型上进行有监督的微调和直接偏好优化,从而创建了DeepSeek Chat模型。评估结果表明,DeepSeek LLM 67B在各种基准测试中均超过LLaMA-2 70B,尤其在代码、数学和推理领域。此外,开放式评估显示DeepSeek LLM 67B Chat在性能上优于GPT-3.5。
Jan, 2024
该研究综述了与优化大型语言模型性能和能源效率相关的硬件加速器,涵盖了多种加速器的体系结构、性能指标和能源效率考虑,并为研究人员、工程师和决策者在现实应用中优化大型语言模型的部署提供了有价值的见解。
Jan, 2024
对大型语言模型(LLMs)进行了综述,包括三个流行的LLM系列(GPT,LLaMA,PaLM)的特点、贡献和局限性,同时讨论了构建和增强LLMs的技术、为LLM训练、微调和评估准备的常用数据集以及常用的LLM评估指标,最后讨论了未来的挑战和研究方向。
Feb, 2024
本研究聚焦于大型语言模型在低资源语言(如僧伽罗语)中的表现,填补了此领域的研究空白。通过评估四种最新的语言模型,发现Claude和GPT 4o在直接处理僧伽罗语及其英译方面表现优异,显著优于前版本,而Llama和Mistral虽表现不佳,但在微调后具有改进潜力。该研究为低资源语言处理提供了新的见解和实用模型选择。
Jul, 2024
本研究探讨了大型语言模型在文本到代码生成中的表现,特别是对比了Bard、BingChat、ChatGPT、Llama2和Code Llama等五种先进模型的能力。研究发现,ChatGPT在处理编程挑战方面远胜于其他模型,包括专门针对代码生成的Code Llama,展现出明显的性能优势。
Sep, 2024