加速单语文本生成的多语言语言模型的简单框架

Jan, 2024

加速单语文本生成的多语言语言模型的简单框架

A Simple Framework to Accelerate Multilingual Language Model for Monolingual Text Generation

Jimin Hong, Gibbeum Lee, Jaewoong Cho

TL;DR最近大型语言模型的进展不仅在英语中，还在非英语语言中完成了复杂语言任务的执行。然而，大多数语言模型的分词器（如 Llama）在训练时采用的是以英语为中心的语料库，往往会在非英语语言中过度分词。针对这个问题，我们的研究引入了一种新颖的框架，旨在加快这些语言的文本生成。此框架预测的语言单元较传统的多语言分词器更大，并且专门针对目标语言进行了定制，从而减少了所需的解码步骤。我们的实证结果表明，与标准解码相比，所提出的框架将生成速度提高了 1.9 倍，同时在单语任务上保持了预训练多语言模型的性能。

Abstract

Recent advancements in large language models have facilitated the execution of complex language tasks, not only in English but also in non-English languages. However, the tokenizers of most language models, such

large language models non-english languages tokenizers text generation multilingual model

发现论文，激发创造

RomanSetu: 大型语言模型通过罗马化高效解锁多语言能力

本研究通过使用罗马化文本作为 LLMs 的界面来解决将大型语言模型扩展到非英语语言（尤其是使用非拉丁文字的语言）的挑战，并通过印地语到英语翻译和情感分析任务展示了罗马化文本的潜力，既提高了推理效率，又在有限的预训练情况下取得了竞争性的性能，同时将罗马化文本与原生文本结合的多脚本提示方法也显示出了提高任务性能的潜力。这些发现表明罗马化在弥合 LLM 应用中的语言障碍方面具有潜力，未来的工作将致力于将这种方法扩展到更多的语言和任务。

Jan, 2024

GenTranslate：大型语言模型是生成式跨语音和机器翻译器

利用大型语言模型的丰富语言知识和强大的推理能力，我们提出了一种新的生成式翻译范式 ——“GenTranslate”，可以从 N 个候选译文中生成更高质量的翻译结果，并且在各种语音和机器翻译基准测试中明显优于现有模型。

Feb, 2024

一种快速、紧凑、准确的混合语言文本语种识别模型

提出了一种可以快速且精确地标识码混合多语言文本中每个单词的语言的前馈网络的方法，并在 100 种语言和 100 种语言对中展示了其优越性能。

Oct, 2018

增强大型语言模型的翻译能力的新范式

本文介绍了一项关于增强大型语言模型（LLMs）在机器翻译（MT）任务中翻译能力的研究，提出了一个包括三个阶段的新范 Paradigm，通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练，以及利用和源语言一致的指导来进行监督微调。实验结果表明，我们的方法在翻译能力方面取得了显著的改进，超过了以前的工作，并在参数数量较小的情况下实现了优越的性能。

Mar, 2024

LlamaFactory: 统一高效微调 100 + 语言模型

LLamaFactory 是一个统一的框架，集成了一套先进的高效训练方法，用户可以通过内置的 Web 界面 LlamaBoard 灵活地自定义 100 多个大型语言模型（LLMs）的微调，我们在语言建模和文本生成任务上经验性地验证了该框架的效率和有效性。

Mar, 2024

借助语言对齐将大型语言模型推广到非英语语境

通过建立语言间的语义对齐，提出通过使用非英语训练数据来增强预训练大型语言模型在非英语语言上的能力，并通过实验结果证明此方法在六种非英语语言上超过英语模型 42.50%，在汉语人文任务上超过英语模型 8.2%。同时发现，使用非英语文本作为翻译数据的目标端特别有效，且随着翻译任务数据规模的扩大，语言模型内部的语义对齐能够进一步加强。

Aug, 2023

机器翻译的范式转变：提升大型语言模型的翻译性能

通过提出一种新的微调方法，我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA，该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升，并为机器翻译领域的新的训练范式奠定了基础。

Sep, 2023

迈向快速多语言 LLM 推断：投机式解码和专业的起草机

大语言模型在自然语言处理中产生了革命性的作用，并且扩展了它在不同商业应用中的适用性。然而，这些模型在多语言环境中的部署受到推理时间的限制。为了缓解这一挑战，本文探讨了使用推测解码的助理模型的训练方法，其中助理模型用于草拟未来的令牌，并通过目标语言模型进行验证。我们表明，通过有针对性的预训练和微调策略优化的专门针对语言的草拟模型，在推理时间上显著减少了时间，相较于以前的方法。我们在推理时间、领域外优化以及 GPT-4o 评估等方面验证了这些模型。

Jun, 2024

多语言大型语言模型与多语言性诅咒

多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面，并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外，还探讨了不同模型类型的独特特征，包括仅编码器模型、仅解码器模型和编码器 - 解码器模型。同时，还讨论了多语言大型语言模型的一个重要局限性，即多语言之间的相互影响问题，并探究了克服这一问题的当前尝试。

Jun, 2024

用图神经网络增强的语言模型进行高效的多语言文本分类

提出了一种基于图神经网络和变压器的跨语言灾难相关文本分类系统，该系统可以在有限的监督下工作，并在多种语言和单语言情境下进行分类。在英语、非英语和单语数据集上测试，该系统的加权 F1 值优于现有的最先进模型和多语言 BERT 基线。

Mar, 2022