Sailor:东南亚开放式语言模型
通过在 Llama-2 模型的基础上进一步扩展词汇量、专门的指令和对齐调整等方法,我们引入了专注于东南亚语言的创新语言模型系列 SeaLLMs,以解决现有大型语言模型在低资源和区域语言方面的语言偏差问题。经过全面评估,我们发现 SeaLLM-13b 模型在广泛的语言任务和助手式指令跟随能力方面表现出卓越的性能,并且在诸如泰语、高棉语、老挝语和缅甸语等非拉丁语言方面明显优于 ChatGPT-3.5 模型,并且在轻便且经济高效的操作中仍然表现出色。
Dec, 2023
當應用於資源有限的東南亞語言時,大型語言模型的效果明顯下降。為此,我們引入了 CompassLLM,一個專門針對東南亞語言的大型多語言模型,旨在支持 Shopee 的開發需求。我們的方法包括多個關鍵策略,逐步增強多語言能力,並進行低資源語言的訓練,同時整合了課程學習和監督指導微調,以獲得更好的人類指導行為相符的模型,並在自動和人工評估中顯示出優越性能,尤其在東南亞語言中,如印尼語。
Apr, 2024
东南亚 (SEA) 是一个语言多样性和文化多样性丰富的地区,拥有 1300 多种土著语言和 6.71 亿人口。然而,现有的人工智能模型在表示东南亚语言的文本、图像和音频数据方面存在显著的不足,损害了东南亚语言的人工智能模型的质量。为了应对这些挑战,我们介绍了 SEACrowd,这是一个协作倡议,它整合了一个全面的资源中心,通过提供近 1000 种东南亚语言的标准化语料库来填补资源缺口。通过我们的 SEACrowd 基准测试,我们评估了 36 种土著语言在 13 个任务上的人工智能模型的质量,为东南亚当前的人工智能发展提供了有价值的见解。此外,我们提出了促进更大的人工智能进展的策略,最大限度地发挥人工智能在东南亚的潜在效用和资源平等性。
Jun, 2024
SeaEval 是一个多语种基础模型的评估基准,研究了模型对自然语言的理解、推理能力以及对文化实践、细微差别和价值观的理解。研究发现模型在给予释义指令时表现出不同的行为,许多模型仍存在曝光偏差,对于根源于事实、科学和常识知识的问题,多语种查询的一致性响应预期是相同的,然而大多数模型在这些查询上令人意外地表现出不一致的性能,需要更具有泛化能力的语义表示和增强的多语种上下文化能力。SeaEval 可用于多语种和文化情景下的更全面的调查和评估。
Sep, 2023
在东南亚语言方面,BHASA 提供了一个综合的语言和文化评估套件,其中包括自然语言理解、生成和推理等任务的 NLP 基准、语言诊断工具包 LINDSEA 以及文化诊断数据集,初步实验发现 GPT-4 在东南亚语言方面的语言能力、文化表达和敏感性等方面存在不足,BHASA 将在未来继续改进和扩展。
Sep, 2023
我们介绍了 Orion-14B,这是一个包含 140 亿参数的多语言大型语言模型集合。我们利用数据调度方法在来自英语、中文、日语、韩语和其他语言的多样文本语料库中训练了一个基础模型。此外,我们还对应用于对话和其他特定用例的一系列模型进行了精细调整。我们的评估结果表明,Orion-14B 在广泛的任务中实现了最先进的性能。我们通过公开访问的链接提供了 Orion-14B 模型系列及其相关代码,旨在激发未来在该领域的研究和实际应用。
Jan, 2024
该论文介绍了 YuLan 的开发,这是一系列具有 120 亿参数的开源 LLMs,其基础模型在多样化语料库中进行了预训练,并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据,结合指导调整和人工对齐的后续训练阶段,以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习,YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。
Jun, 2024
大型语言模型(LLM)在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA,这是一个开源的 150 亿双语不对称 seq2seq 模型,为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA,并采用三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B 令牌时也能达到与 LLaMA-70B 在 BELEBELE 基准上、BLOOM-176B 在 MMLU 基准上、GLM-130B 在 C-Eval(难)基准上相媲美的性能。本报告提供了有关类似模型的预训练的主要细节,包括预训练数据处理、双语 Flan 数据收集、启发我们模型架构设计的经验观察、不同阶段的训练目标以及其他增强技术。我们重构了代码以符合 Huggingface Transformers Library 的设计原则,使其对开发者更加方便使用,并在 https URL(此处提供链接)上发布了不同训练阶段的检查点。有关我们项目的更多详细信息,请访问 https URL(此处提供链接)。
Sep, 2023
Baichuan 2 是一系列大规模多语言语言模型,包含 70 亿和 130 亿参数,从头开始训练,共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能,如 MMLU、CMMLU、GSM8K 和 HumanEval,此外,Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点,以便研究界更好地理解 Baichuan 2 的训练动态。
Sep, 2023