TigerBot:一个开放的多语言多任务 LLM
BLOOM 是一个 176B 参数的解码器 - 只有 Transformer 语言模型,它使用 ROOTS 语料库进行训练,并在多任务提示微调后达到了竞争力强的结果。该研究呼吁公开此类研究并在负责任的 AI 许可下发布其模型和代码,以便未来的研究和应用。
Nov, 2022
利用零样本学习对四种主要的神经网络模型在 14 个乌尔都自然语言处理任务上进行了全面对比和分析,结果表明最先进的模型在所有任务中都超越了编码器 - 解码器的预训练语言模型。此外,研究还发现,基于较少参数但更多语言特定数据的模型比基于更大计算模型但较少语言数据的模型表现更好。
May, 2024
本研究提出了 BigTrans,它基于 LLaMA-13B 模型,并通过三个步骤对其进行优化,使其在超过 100 种语言上具备多语翻译能力,初步实验表明,BigTrans 在多种语言上的表现与 ChatGPT 和 Google Translate 相当,并在 8 种语言对中表现出色。
May, 2023
Baichuan 2 是一系列大规模多语言语言模型,包含 70 亿和 130 亿参数,从头开始训练,共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能,如 MMLU、CMMLU、GSM8K 和 HumanEval,此外,Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点,以便研究界更好地理解 Baichuan 2 的训练动态。
Sep, 2023
TeleChat 是一种拥有 30 亿、70 亿和 120 亿参数的大型语言模型集合,包括预训练的语言模型和根据人类偏好进行微调的聊天模型。在各种任务上,包括语言理解、数学、推理、代码生成和基于知识的问答等方面,TeleChat 表现出与其他类似大小的开源模型相当的性能。我们公开发布了 TeleChat 的 7B 和 12B 变种的微调模型检查点、代码和部分预训练数据,以支持未来对大型语言模型的研究和应用。
Jan, 2024
我们介绍了 SoftTiger,这是一个临床大型语言模型(CLaM),旨在成为医疗保健工作流的基础模型。我们解决了将临床笔记按照国际互操作性标准转化为临床数据的关键问题,并通过公开和认证的临床数据进行了监督微调,使目标模型能够支持基本的临床任务,并学习执行更复杂的下游临床任务。此外,我们还解决了医疗保健背景中的模型挑战,并展示了 SoftTiger 在盲目对比评估中优于其他流行的开源模型和 GPT-3.5,与 Gemini-pro 相媲美,仅与 GPT-4 略有差距。我们相信,大型语言模型可能成为医疗保健数字化和民主化的一个基石,因此,我们公开发布了规模为 130 亿和 700 亿参数的 SoftTiger 模型,以及创新的可扩展评估的数据集和代码,希望对医疗保健行业做出重要贡献。
Mar, 2024
通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型,本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练,以保证计算可行性和模型的稳健性。此外,我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码,进一步强调我们对开放研究的承诺,促进语言建模领域的进一步创新。
Nov, 2023
本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法,并且通过在 WikiText103,LAMBADA 和 RACE 数据集中取得了最先进的结果,证明了大型语言模型可以进一步推进最先进的技术。
Sep, 2019
我们开发并发布了称为 Llama 2 的预训练和微调的大型语言模型集合,该集合的规模从 70 亿到 700 亿参数不等。称为 Llama 2-Chat 的我们的微调语言模型在大多数测试中优于开源聊天模型,并根据我们的人工评估显示对于有用性和安全性而言可能是闭源模型的合适替代品。我们提供了我们微调和安全性改进方法的详细说明,以便使社区能够在我们的工作基础上进行拓展,并为 Llama 2 的负责任发展做出贡献。
Jul, 2023