扩展 BLOOM 的预训练，以改进对繁体中文的支持：模型、方法和结果

Mar, 2023

扩展 BLOOM 的预训练，以改进对繁体中文的支持：模型、方法和结果

Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results

Philipp Ennen, Po-Chun Hsu, Chan-Jan Hsu, Chang-Le Liu, Yen-Chen Wu...

TL;DR本文介绍了多语言语言模型 BLOOM-zh，以强化对繁体中文的支持。通过在传统中文和英语领域中增加 74 亿个标记的预训练，BLOOM-zh 在大多数传统中文基准测试中优于其前身。

Abstract

In this paper we present the multilingual language model bloom-zh that features enhanced support for traditional chinese. →

bloom-zh multilingual language model traditional chinese pre-training benchmark

发现论文，激发创造

研究大型多语言语言模型的翻译性能：以 BLOOM 为例

本文评估了覆盖 46 种语言的新型开放访问的大型多语种语言模型 BLOOM 在机器翻译上的表现，结果显示少量样本学习模式下，该模型在许多语言对中表现良好，但 0-shot 性能受到过度生成和错误语言生成的影响。

Mar, 2023

BLOOM: 一种含 176B 个参数的多语言开放访问语言模型

BLOOM 是一个 176B 参数的解码器 - 只有 Transformer 语言模型，它使用 ROOTS 语料库进行训练，并在多任务提示微调后达到了竞争力强的结果。该研究呼吁公开此类研究并在负责任的 AI 许可下发布其模型和代码，以便未来的研究和应用。

Nov, 2022

BLOOM+1: BLOOM 对零 - shot 提示增加语言支持

该研究旨在提高 BLOOM 模型在未见过语言上的度量表现。研究发现，通过进行语言适应性策略来提高它的零样本度量表现是有效的，快速微调适配器比继续预训练更有效，语言度量表现主要取决于适应数据的大小。同时，通过将新语言添加到多任务微调混合中可以有效地教授 BLOOMZ 模型一种新语言。

Dec, 2022

理解 BLOOM：多元自然语言处理任务的实证研究

通过评估较小的 BLOOM 模型变体（350m / 560m 和 1b3 / 1b7），我们发现：（1）与 GPT 和 BERT 等 LLM 不同，BLOOM 表现不随参数大小变化；（2）跨语言和多语言微调实验证明 BLOOM 与单语 GPT-2 模型相当或更差；（3）使用 RealToxicityPrompts 数据集的提示文本生成的毒性分析表明，BLOOM 生成的文本至少比 GPT-2 和 GPT-3 模型不良反应低 17％。

Nov, 2022

通过多指令训练教授一种多语言的大型语言模型理解多语言语音

利用多语言语言模型与多语言语音编码器，本研究提出 BLOOMZMMS，旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法，我们验证了从文本到语音模态的语言知识的可传递性。实验证明，可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性，但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性，包括语音翻译和多语言口语理解，从而为语音领域应用大型语言模型开辟了新的途径。

Apr, 2024

BigTrans：通过超过 100 种语言的多语种翻译能力增强大型语言模型

本研究提出了 BigTrans，它基于 LLaMA-13B 模型，并通过三个步骤对其进行优化，使其在超过 100 种语言上具备多语翻译能力，初步实验表明，BigTrans 在多种语言上的表现与 ChatGPT 和 Google Translate 相当，并在 8 种语言对中表现出色。

May, 2023

Bloom 图书馆：支持 300 多种语言的多模态数据集，可用于各种下游任务

Bloom Library 是一个多语言多模态数据集；其中含有 363 种语言，是目前包含语言最多的数据集之一，可用于低资源条件下的自然语言处理研究。

Oct, 2022

中文细粒度 LLM：预训练中心化大型语言模型

通过引入 CT-LLM，这项研究介绍了一个 2B 规模的大型语言模型（LLM），以优先考虑中文语言的发展。这项研究挑战了在英文语料库上培训 LLMs 并将其适应其他语言的常规模式，为 LLM 培训方法学的拓宽开创了新的可能性。

Apr, 2024

LACoS-BLOOM：基于对比目标的 8 位 Siamese-BLOOM 低秩适应

本文介绍了一种低秩适配器、基于对比目标的多语言大型语言模型 Siamese-BLOOM 和可扩展适配器 LoRA 以及 8 位 Adam 优化器，用于句子相似性分类。通过在 BLOOM 模型上应用对比目标的 Siamese 架构，解决了多语言标记数据稀缺的问题，并证明了从 LACoS-BLOOM 中学习到的嵌入质量与模型参数数量和未标记的训练数据量成比例，相对于以前的解决方案 Sentence-BERT，在英语和多语言 STS 任务上均取得了显着的改善。

May, 2023

Hyacinth6B：一种用于繁体中文的大型语言模型

为解决 LLMs 的高硬件和计算需求，本研究的主要动机是找到在模型轻量化和性能之间的平衡，力求在使用相对轻量级模型的同时最大限度地提高性能。Hyacinth6B 是为实现这一目标而开发的，旨在充分利用 LLMs 的核心能力，而不会产生重大的资源成本，并有效地推动较小型模型的性能边界。培训方法使用了参数高效的 LoRA 方法。

Mar, 2024