Breeze-7B 技术报告
Mistral 7B v0.1 是一个拥有 70 亿参数的语言模型,通过使用分组查询注意力(GQA)和滑动窗口注意力(SWA)提高了推理效率,并且还提供了一个经过调整的模型 Mistral 7B -- Instruct,在人类和自动化评测中都超过了 Llama 2 13B -- Chat 模型。
Oct, 2023
本研究介绍了在 32.6GB 数据集上对 Mistral 7B 进行预训练的重要进展,研究中探索了扩展上下文长度的影响,发布了具有 4096 和 32768 标记的上下文长度模型,并通过专门调优的 16384 标记的上下文长度模型 ——Malaysian Mistral,进一步提升了性能。实验证明了持续预训练的效果以及扩展上下文长度对 Mistral 7B 的语言理解能力的影响。此外,该研究还通过与其他著名语言模型的基准测试(包括 ChatGPT3.5 和 Claude 2)做对比,展示了 Malaysian Mistral 在塔塔巴哈萨(马来语法)测试集上表现出卓越性能,特别是在配合指令进行微调时。
Jan, 2024
我们介绍了 RakutenAI-7B,它是一套面向日本的大型语言模型,在开放的 7B 模型中,在日本语言模型测试基准中取得了最好的性能。除了基础模型,我们还发布了经过指令调整和聊天调整的模型 RakutenAI-7B-instruct 和 RakutenAI-7B-chat,均采用 Apache 2.0 许可。
Mar, 2024
利用零射击和单射击翻译提示在医学领域内进行了 Mistral 7B 大型通用语言模型 (LLM) 的微调,以提高其实时自适应机器翻译能力,结果显示其对西班牙语到英语机器翻译的质量改进超过了基准性能,并且其零射击翻译与 NLLB 3.3B 的性能相匹配,单射击翻译质量超过了 NLLB 3.3B 的性能,明确了微调高效 LLMs 像 Mistral 7B 的重要性,以产生与任务导向模型相当的高质量零射击翻译。
Dec, 2023
BioMistral 是一个开源的、专门针对生物医学领域的大型语言模型,通过基于 Mistral 模型并在 PubMed Central 上进行进一步预训练来实现。我们在包含 10 个既定医疗问答任务的基准测试上对 BioMistral 进行了全面评估,同时探索了通过量化和模型合并方法获得的轻量级模型。我们的结果表明,与现有的开源医学模型相比,BioMistral 具有出色的性能,并且在与专有模型的竞争中有竞争优势。此外,为了解决英语以外数据的有限可用性,并评估医学领域中多语言的泛化能力,我们将该基准测试自动翻译和评估为其他 7 种语言。这标志着医学领域中大规模多语言评估的首次实现。在我们的实验中获得的数据集、多语言评估基准、脚本以及所有模型都可以免费获取。
Feb, 2024
H2O-Danube-1.8B is a 1.8B language model trained on 1T tokens, demonstrating competitive metrics and democratizing LLMs through open accessibility.
Jan, 2024
Baichuan 2 是一系列大规模多语言语言模型,包含 70 亿和 130 亿参数,从头开始训练,共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能,如 MMLU、CMMLU、GSM8K 和 HumanEval,此外,Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点,以便研究界更好地理解 Baichuan 2 的训练动态。
Sep, 2023
比较了大型语言模型和中型开源模型在临床任务上的表现,发现 Mistral 7B 是表现最佳的模型,并且在临床问题回答任务和消费者查询回答任务上优于专门为生物医学领域训练的模型。
Apr, 2024
LLMOps 成本高、透明度低、模型训练方法和数据缺乏一致性,为解决这些问题,LMM Efficieny Challenge 提出了在有限时间内利用单一 GPU 对基础模型进行微调的任务,研究介绍了 Birbal,该模型经过精心设计的指导说明覆盖多个任务,成功地在一个 RTX 4090 上实现了 35% 的性能提升。
Mar, 2024
TeleChat 是一种拥有 30 亿、70 亿和 120 亿参数的大型语言模型集合,包括预训练的语言模型和根据人类偏好进行微调的聊天模型。在各种任务上,包括语言理解、数学、推理、代码生成和基于知识的问答等方面,TeleChat 表现出与其他类似大小的开源模型相当的性能。我们公开发布了 TeleChat 的 7B 和 12B 变种的微调模型检查点、代码和部分预训练数据,以支持未来对大型语言模型的研究和应用。
Jan, 2024