朝着更具包容性的人工智能：针对萨米语的大型语言模型训练的进展与展望

May, 2024

朝着更具包容性的人工智能：针对萨米语的大型语言模型训练的进展与展望

Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language

Ronny Paul, Himanshu Buckchash, Shantipriya Parida, Dilip K. Prasad

TL;DR该研究致力于解决 S'ami 语言面临的数字边缘化问题，通过采用最新的自然语言处理技术，训练基于超低资源语言的语言模型，并通过多语言训练实验，发现在顺序多语言训练情景下，解码器模型的表现优于联合多语言训练，且高语义重叠的多语言训练比从头训练要更好。

Abstract

S\'ami, an indigenous language group comprising multiple languages, faces digital marginalization due to the limited availability of data and sophisticated language models designed for its linguistic intricacies. This work focuses on increasing technological participation for the S\'am

s'ami language ultra low resource languages language modeling technological participation multilingual training

发现论文，激发创造

大型语言模型在扩展口语理解系统到新语言方面的应用

介绍了一种使用大型语言模型进行机器翻译的流水线，用于扩展语音助手系统的口语理解模型，提高了多语言场景和设备本地场景下的整体准确率。

Apr, 2024

SambaLingo: 教授大型语言模型新语言

我们详细调查了将 LLMs 适应到新语言的过程，包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题，我们的实验覆盖了 9 种语言和 2 个参数规模，并与先前的基准模型进行比较，我们的模型表现优于所有先前已发表的基准模型。

Apr, 2024

阿姆哈拉语 LLaMA 和 LLaVA：低资源语言的多模态 LLMs

使用数据扩充方法，我们训练了一个多模态的阿姆哈拉语大型语言模型 (LLM)，并引入了一个用于评估的阿姆哈拉语版本的基准数据集。

Mar, 2024

SeaLLMs — 东南亚大型语言模型

通过在 Llama-2 模型的基础上进一步扩展词汇量、专门的指令和对齐调整等方法，我们引入了专注于东南亚语言的创新语言模型系列 SeaLLMs，以解决现有大型语言模型在低资源和区域语言方面的语言偏差问题。经过全面评估，我们发现 SeaLLM-13b 模型在广泛的语言任务和助手式指令跟随能力方面表现出卓越的性能，并且在诸如泰语、高棉语、老挝语和缅甸语等非拉丁语言方面明显优于 ChatGPT-3.5 模型，并且在轻便且经济高效的操作中仍然表现出色。

Dec, 2023

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

EthioLLM：埃塞俄比亚语言的多语言大型语言模型与任务评估

EthioLLM introduces multilingual large language models for five Ethiopian languages and English, along with a new benchmark dataset for downstream NLP tasks, evaluating their performance and making them available through an open-source repository.

Mar, 2024

用于加利西亚语的开放式生成大型语言模型

这篇文章介绍了针对加利西亚语的两个生成式大型语言模型，通过减少数据限制以及使用人工评估和任务数据集的方法，这些模型展现出良好的性能，强调了在生成式模型中语言多样性的重要性。

Jun, 2024

优质数据到文本生成用于严重资源不足的语言的开箱即用大型语言模型

大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距，但人工评估表明 BLEU 分数相比于英语有所下降，对于评估非任务特定系统其适用性存疑。

Feb, 2024

多语言迁移学习改进原住民语言的神经机器翻译

本篇研究尝试使用预训练的机器翻译模型进行从西班牙语到南美 10 种土著语言的翻译，相对于之前方法使用数据增强的手段，该方法在多种语言上取得了更好的效果。

May, 2022

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024