UCCIX: 爱尔兰卓越大型语言模型

May, 2024

UCCIX: Irish-eXcellence Large Language Model

Khanh-Tung Tran, Barry O'Sullivan, Hoang D. Nguyen

TL;DR该研究通过提出一种新的框架，使用极少量的文本数据来进行大规模语言模型的训练，开发了 UCCIX，一个面向爱尔兰语的开源语言模型，并在爱尔兰语任务中取得了高达 12% 的性能提升，提供了爱尔兰语数据集以便进行评估和未来研究，旨在推动爱尔兰语在数字时代的发展和其它土著语言的应用。

Abstract

The development of large language models (llms) has predominantly focused on high-resource languages, leaving extremely low-resource languages

large language models llms irish uccix low-resource languages

发现论文，激发创造

优质数据到文本生成用于严重资源不足的语言的开箱即用大型语言模型

大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距，但人工评估表明 BLEU 分数相比于英语有所下降，对于评估非任务特定系统其适用性存疑。

Feb, 2024

OpenLLM-Ro -- 关于从 Llama 2 开始训练的开源罗马尼亚语 LLM 的技术报告

近年来，大型语言模型（LLMs）在各种任务上已经实现了几乎人类水平的表现。尽管一些 LLMs 在多语言数据上进行了训练，但大多数训练数据仍是英文，所以它们在英文上的表现远远超过其他语言。本文介绍了我们对第一个专门用于罗马尼亚语的基础和聊天型 LLMs 进行训练和评估的方法。

May, 2024

优化多语言大型语言模型的语言增强：以韩文为例的案例研究

本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现：扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型，在质量分析中，我们的提出的 Bllossom 模型表现出优异的性能。

Mar, 2024

从零开始预训练轻量级大型语言模型 MindLLM: 评估与领域应用

MindLLM 是一系列双语轻量级大型语言模型，通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验，并介绍了适用于较小模型的创新指令调整框架，同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。

Oct, 2023

多语言大型语言模型的跨语言能力和知识障碍

通过评估六种最先进的大型语言模型在跨语言任务上的表现，本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力，但在更深层次的跨语言知识转移上存在困难，揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法，有效减少了这些差距，甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。

Jun, 2024

用于加利西亚语的开放式生成大型语言模型

这篇文章介绍了针对加利西亚语的两个生成式大型语言模型，通过减少数据限制以及使用人工评估和任务数据集的方法，这些模型展现出良好的性能，强调了在生成式模型中语言多样性的重要性。

Jun, 2024

使用 MultiQ 评估大型语言模型的基础多语言能力

研究表明，尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言，人们却在多种语言中使用这些模型。本文通过引入 MultiQ 标准测试并评估 27.4k 个不同语言的基本开放式问答问题，探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现，在一些语言中，这些模型在回答问题时表现得既忠实又准确，而大多数模型在忠实于回答问题时的准确性更高，但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释，发现了可能存在的相关性，值得进一步研究。

Mar, 2024

大型语言模型在扩展口语理解系统到新语言方面的应用

介绍了一种使用大型语言模型进行机器翻译的流水线，用于扩展语音助手系统的口语理解模型，提高了多语言场景和设备本地场景下的整体准确率。

Apr, 2024

超越英语的 LLMs：通过跨语言反馈扩展 LLMs 的多语言能力

通过构建两个数据集，将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言，并使用 DPO 算法对 LLMs 进行与人类反馈的对齐，实现了对 100 种语言的支持，从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。

Jun, 2024

跨语言适应多语言预训练语言模型的三重方法

研究了三种低资源跨语言方法，并在语境学习和微调下发现通过添加额外的主导语言监督信号，对 LLM 的跨语言转移有所改进；同时，发现将目标语言适应词汇重排可能对 ICL 有益，但随着微调而减弱；最后，继续以一种低资源语言进行预训练可提高其他相关低资源语言的模型性能。

Jun, 2024