从字节到俄罗斯优势: 优化吉玛和米斯特拉用于乌克兰语表示

Apr, 2024

从字节到俄罗斯优势: 优化吉玛和米斯特拉用于乌克兰语表示

From Bytes to Borsch: Fine-Tuning Gemma and Mistral for the Ukrainian Language Representation

Artur Kiulian, Anton Polishko, Mykola Khandoga, Oryna Chubych, Jack Connor...

TL;DR利用乌克兰数据集对开源Gemme和Mistral语言模型进行微调，以提高其语言能力，并与其他处理乌克兰语的模型进行基准比较。该研究旨在减少技术中的语言偏见，促进数字领域的包容性。通过透明且可复现的方法鼓励进一步的NLP研究与发展，同时提出乌克兰知识与指令数据集（UKID）以支持未来的语言模型微调工作。本研究推动了自然语言处理领域的发展，并凸显了AI中语言多样性的重要性，对文化保护、教育和全球AI的扩展至关重要。最终，我们呼吁实现一种包容性的技术未来，使AI能够在所有语言，特别是目前少数代表的语言中有效地进行交流。

Abstract

In the rapidly advancing field of AI and NLP, generative large language models (LLMs) stand at the forefront of innovation, showcasing unparalleled abilities in text understanding and generation. However, the limited representation of low-resource languages like →

发现论文，激发创造

MEGA：多语言生成AI的评估

本研究对生成式大型语言模型 (LLMs) 进行了全面的评测，并通过对比同类非自回归模型，探讨了这些模型在多语种 NLP 任务中的性能表现和限制，旨在为未来改进 LLMs 提供方向。

Mar, 2023

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

加利西亚语言中的对话：一种针对少数语言的大型语言模型

该研究介绍了两种新的资源来增强加利西亚语的自然语言处理，通过Alpaca数据集的Galician适应和LLaMA-7B的fine-tune，为低资源语言提供了多语言模型的研究，并探索了在资源有限的情况下，如何利用相关语言（例如葡萄牙语）来生成连贯的文本。

Nov, 2023

朝向高效的生成式大型语言模型服务：从算法到系统的调研

人工智能中生成式大型语言模型的高效部署方法的综述

Dec, 2023

跨越语言的视角：越南大型语言模型的微调和全面评估

通过为越南语进行精细调整并开发了综合评估框架，我们发现精细调整的大型语言模型在越南语上表现出更好的理解和生成能力，并且模型规模和训练数据质量对模型的性能有重要影响。

Mar, 2024

改进的英语到乌克兰语机器翻译数据打印机设定

使用一种经过监督微调的大规模预训练语言模型的嘈杂平行数据集建立翻译系统，以提高乌克兰语的翻译质量和性能。

Apr, 2024

大型语言模型的国际化综述：最新进展和新的研究方向

对大型语言模型（LLMs）在多语种环境中的应用进行了综述，包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用，同时讨论了相关方面的主要挑战和潜在解决方案，并提出了进一步增强语言模型的未来研究方向。

May, 2024

Vikhr: 面向俄语的开源指令调优大语言模型家族

为了解决非英语文本生成的挑战，如生成质量差和计算性能下降等问题，本研究介绍了一种专为俄语设计的开源指令调整大型语言模型Vikhr，通过适应性分词词汇表、持续预训练和指令调整权重等方法，提高模型性能和计算效率，并在俄语基准测试中取得显著成果。

May, 2024

揭示多样性：对印度AI研究领域的综述

该综述论文提供了印度语系大型语言模型（LLM）研究方向的全面概述，包括LLM的发展、现有LLM的微调、语料库的开发、基准测试和评估以及围绕特定技术、工具和应用的出版物。该论文指出了印度语系的挑战，如数据有限、缺乏标准化和语言复杂性，旨在为从事NLP领域研究工作的人员提供有价值的资源，并为这些语言的更准确、高效的LLM应用的发展做出贡献。

Jun, 2024

用于加利西亚语的开放式生成大型语言模型

这篇文章介绍了针对加利西亚语的两个生成式大型语言模型，通过减少数据限制以及使用人工评估和任务数据集的方法，这些模型展现出良好的性能，强调了在生成式模型中语言多样性的重要性。

Jun, 2024