波斯思维：一个跨语言的波斯 - 英语大语言模型

Jan, 2024

波斯思维：一个跨语言的波斯 - 英语大语言模型

PersianMind: A Cross-Lingual Persian-English Large Language Model

Pedram Rostami, Ali Salemi, Mohammad Javad Dousti

TL;DR通过在 LLaMa2 的词汇表中添加 10,000 个波斯语标记并在包含近 20 亿波斯语标记的数据集上进行训练，我们展示了我们的方法既保留了模型的英语知识，又利用了迁移学习在不同语言之间传递任务知识的优势。

Abstract

large language models demonstrate remarkable proficiency in various linguistic tasks and have extensive knowledge across various domains. Although they perform best in English, their ability in other languages is notable too. In contrast, →

large language models open-source models persianmind bilingual language model transfer learning

发现论文，激发创造

波斯语 LLaMA: 迈向建立首个波斯语大型语言模型

本研究介绍了第一个大型波斯语语言模型 PersianLLaMA，在波斯文本和数据集上训练，通过最新的评估方法在波斯文本的生成和理解任务中表现出色，对于发展波斯语自然语言处理，特别是文本生成方面如聊天机器人、问答、机器翻译和文本摘要等任务可作为宝贵资源。

Dec, 2023

波斯语大型语言模型基准测试：关注 ChatGPT 的初步研究

本文探讨了大型语言模型（LLMs）在波斯语中的有效性。研究发现，虽然 ChatGPT 和其他 LLMs 在英语中表现出色，但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究，重点评估了 GPT-3.5-turbo，同时还包括 GPT-4 和 OpenChat-3.5，以提供更全面的评估。研究结果显示，虽然 LLMs，特别是 GPT-4，在需要推理能力和对一般知识的广泛理解的任务中表现出色，但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外，研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力，这尤其值得注意，因为波斯语具有独特的字母和写作风格。

Apr, 2024

翻译困境：大型语言模型在非英语内容分析中的应用

本文介绍了多语种语言模型的工作原理及其在语言分析和生成方面的能力和局限性，并提供了关于开展大型和多语种语言模型研究、开发和部署时的建议。

Jun, 2023

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

PolyLM: 一个开源的多语种大语言模型

PolyLM 是一个多语言大型语言模型，经过课程学习和自我指导方法的预训练，可以在多种不同语言的多语言理解、问答、生成和翻译任务上获得比其他已有模型更好的表现。

Jul, 2023

从零开始预训练轻量级大型语言模型 MindLLM: 评估与领域应用

MindLLM 是一系列双语轻量级大型语言模型，通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验，并介绍了适用于较小模型的创新指令调整框架，同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。

Oct, 2023

语言模型：少样本多语言学习者

通过对 GPT 和 T5 模型进行跨语言分类，本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本，且在跨语言预测方面表现显著优于随机预测，并与现有的最先进的跨语言模型具有竞争力。

Sep, 2021

MAP-Neo：高能透明的双语大型语言模型系列

开源研究中心提供了 MAP-Neo，一个具有可比较性的高性能透明双语语言模型，并公开了所有细节以复现该模型，以此加强开放研究社区并激发更多创新和创意来促进大语言模型的进一步改进。

May, 2024

阿拉伯 GPT：基于阿拉伯语的大型语言模型

本研究旨在解决目前英语和拉丁语为主导的大型语言模型 (LLMs) 中，对于阿拉伯语母语的阿拉伯 LLMs 的缺乏问题。通过提出 ArabianGPT 系列模型，结合 AraNizer 分词工具和微调技术，有效改进了阿拉伯语自然语言处理的准确性和性能。

Feb, 2024

大型语言模型在非洲语言上的表现如何？

近期，在自然语言处理方面的最新进展中，大型语言模型（LLM）得到了广泛应用，它们在上下文学习下表现出良好性能，甚至适用于未知的任务和语言。然而，它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型（mT0，LLaMa 2 和 GPT-4）在 30 种非洲语言上的五个任务（新闻主题分类，情感分类，机器翻译，问答和命名实体识别）的表现。结果显示，所有的大型语言模型在非洲语言上的表现都低于水平，与英语等高资源语言相比，性能差距较大。我们发现，GPT-4 在分类任务上表现平均或令人印象深刻，但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是，我们发现 mT0 在非洲语言上的跨语言问答表现最佳，超过了最先进的有监督模型（即，微调的 mT5）和 GPT-4 的表现。总体而言，由于 LLaMa 2 具有有限的多语言能力和以英语为中心的预训练语料库，因此其表现最差。总的来说，我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表，因为这些模型越来越受欢迎。

Nov, 2023