Sailor：东南亚开放式语言模型

Apr, 2024

Sailor: Open Language Models for South-East Asia

Longxu Dou, Qian Liu, Guangtao Zeng, Jia Guo, Jiahui Zhou...

TL;DRSailor 是一个面向东南亚语言的一系列开放语言模型，包括从 0.5B 到 7B 参数的模型。通过从 Qwen1.5 继续预训练，Sailor 模型接受 200B 到 400B 个 token，主要涵盖英语、中文、越南语、泰语、印度尼西亚语、马来语和老挝语。实验结果显示，Sailor 模型在常识推理、问答、阅读理解和考试等多个基准任务上表现出强的性能，鼓励开发更多多语种大语言模型的兴趣。

Abstract

We present sailor, a family of open language models ranging from 0.5B to 7B parameters, tailored for South-East Asian (SEA) languages. These models are continually pre-trained from →

sailor open language models south-east asian languages qwen1.5 multilingual use cases

发现论文，激发创造

SeaLLMs — 东南亚大型语言模型

通过在 Llama-2 模型的基础上进一步扩展词汇量、专门的指令和对齐调整等方法，我们引入了专注于东南亚语言的创新语言模型系列 SeaLLMs，以解决现有大型语言模型在低资源和区域语言方面的语言偏差问题。经过全面评估，我们发现 SeaLLM-13b 模型在广泛的语言任务和助手式指令跟随能力方面表现出卓越的性能，并且在诸如泰语、高棉语、老挝语和缅甸语等非拉丁语言方面明显优于 ChatGPT-3.5 模型，并且在轻便且经济高效的操作中仍然表现出色。

Dec, 2023

华南亚地区的大型多语言语言模型：指南

當應用於資源有限的東南亞語言時，大型語言模型的效果明顯下降。為此，我們引入了 CompassLLM，一個專門針對東南亞語言的大型多語言模型，旨在支持 Shopee 的開發需求。我們的方法包括多個關鍵策略，逐步增強多語言能力，並進行低資源語言的訓練，同時整合了課程學習和監督指導微調，以獲得更好的人類指導行為相符的模型，並在自動和人工評估中顯示出優越性能，尤其在東南亞語言中，如印尼語。

Apr, 2024

SEACrowd: 东南亚语言的多语言多模态数据中心和基准套件

东南亚 (SEA) 是一个语言多样性和文化多样性丰富的地区，拥有 1300 多种土著语言和 6.71 亿人口。然而，现有的人工智能模型在表示东南亚语言的文本、图像和音频数据方面存在显著的不足，损害了东南亚语言的人工智能模型的质量。为了应对这些挑战，我们介绍了 SEACrowd，这是一个协作倡议，它整合了一个全面的资源中心，通过提供近 1000 种东南亚语言的标准化语料库来填补资源缺口。通过我们的 SEACrowd 基准测试，我们评估了 36 种土著语言在 13 个任务上的人工智能模型的质量，为东南亚当前的人工智能发展提供了有价值的见解。此外，我们提出了促进更大的人工智能进展的策略，最大限度地发挥人工智能在东南亚的潜在效用和资源平等性。

Jun, 2024

SeaEval 用于多语言基础模型：从跨语言对齐到文化推理

SeaEval 是一个多语种基础模型的评估基准，研究了模型对自然语言的理解、推理能力以及对文化实践、细微差别和价值观的理解。研究发现模型在给予释义指令时表现出不同的行为，许多模型仍存在曝光偏差，对于根源于事实、科学和常识知识的问题，多语种查询的一致性响应预期是相同的，然而大多数模型在这些查询上令人意外地表现出不一致的性能，需要更具有泛化能力的语义表示和增强的多语种上下文化能力。SeaEval 可用于多语种和文化情景下的更全面的调查和评估。

Sep, 2023

BHASA: 东南亚语言文化综合评估系统

在东南亚语言方面，BHASA 提供了一个综合的语言和文化评估套件，其中包括自然语言理解、生成和推理等任务的 NLP 基准、语言诊断工具包 LINDSEA 以及文化诊断数据集，初步实验发现 GPT-4 在东南亚语言方面的语言能力、文化表达和敏感性等方面存在不足，BHASA 将在未来继续改进和扩展。

Sep, 2023

Orion-14B：开源多语言大型语言模型

我们介绍了 Orion-14B，这是一个包含 140 亿参数的多语言大型语言模型集合。我们利用数据调度方法在来自英语、中文、日语、韩语和其他语言的多样文本语料库中训练了一个基础模型。此外，我们还对应用于对话和其他特定用例的一系列模型进行了精细调整。我们的评估结果表明，Orion-14B 在广泛的任务中实现了最先进的性能。我们通过公开访问的链接提供了 Orion-14B 模型系列及其相关代码，旨在激发未来在该领域的研究和实际应用。

Jan, 2024

玉兰：一个开源的大型语言模型

该论文介绍了 YuLan 的开发，这是一系列具有 120 亿参数的开源 LLMs，其基础模型在多样化语料库中进行了预训练，并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据，结合指导调整和人工对齐的后续训练阶段，以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习，YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。

Jun, 2024

OpenBA：一个从零开始的开源 15B 双向语言模型预训练

大型语言模型（LLM）在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA，这是一个开源的 150 亿双语不对称 seq2seq 模型，为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA，并采用三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B 令牌时也能达到与 LLaMA-70B 在 BELEBELE 基准上、BLOOM-176B 在 MMLU 基准上、GLM-130B 在 C-Eval（难）基准上相媲美的性能。本报告提供了有关类似模型的预训练的主要细节，包括预训练数据处理、双语 Flan 数据收集、启发我们模型架构设计的经验观察、不同阶段的训练目标以及其他增强技术。我们重构了代码以符合 Huggingface Transformers Library 的设计原则，使其对开发者更加方便使用，并在 https URL（此处提供链接）上发布了不同训练阶段的检查点。有关我们项目的更多详细信息，请访问 https URL（此处提供链接）。

Sep, 2023

台风：泰国大型语言模型

泰国的 Typhoon 超大语言模型是为泰语开发的，本技术报告介绍了开发泰语 LLMs 的挑战和见解，包括数据准备、预训练、指令调整和评估。

Dec, 2023

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023