扩展 BLOOM 的预训练,以改进对繁体中文的支持:模型、方法和结果
本文评估了覆盖 46 种语言的新型开放访问的大型多语种语言模型 BLOOM 在机器翻译上的表现,结果显示少量样本学习模式下,该模型在许多语言对中表现良好,但 0-shot 性能受到过度生成和错误语言生成的影响。
Mar, 2023
BLOOM 是一个 176B 参数的解码器 - 只有 Transformer 语言模型,它使用 ROOTS 语料库进行训练,并在多任务提示微调后达到了竞争力强的结果。该研究呼吁公开此类研究并在负责任的 AI 许可下发布其模型和代码,以便未来的研究和应用。
Nov, 2022
该研究旨在提高 BLOOM 模型在未见过语言上的度量表现。研究发现,通过进行语言适应性策略来提高它的零样本度量表现是有效的,快速微调适配器比继续预训练更有效,语言度量表现主要取决于适应数据的大小。同时,通过将新语言添加到多任务微调混合中可以有效地教授 BLOOMZ 模型一种新语言。
Dec, 2022
通过评估较小的 BLOOM 模型变体(350m / 560m 和 1b3 / 1b7),我们发现:(1)与 GPT 和 BERT 等 LLM 不同,BLOOM 表现不随参数大小变化;(2)跨语言和多语言微调实验证明 BLOOM 与单语 GPT-2 模型相当或更差;(3)使用 RealToxicityPrompts 数据集的提示文本生成的毒性分析表明,BLOOM 生成的文本至少比 GPT-2 和 GPT-3 模型不良反应低 17%。
Nov, 2022
利用多语言语言模型与多语言语音编码器,本研究提出 BLOOMZMMS,旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法,我们验证了从文本到语音模态的语言知识的可传递性。实验证明,可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性,但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性,包括语音翻译和多语言口语理解,从而为语音领域应用大型语言模型开辟了新的途径。
Apr, 2024
本研究提出了 BigTrans,它基于 LLaMA-13B 模型,并通过三个步骤对其进行优化,使其在超过 100 种语言上具备多语翻译能力,初步实验表明,BigTrans 在多种语言上的表现与 ChatGPT 和 Google Translate 相当,并在 8 种语言对中表现出色。
May, 2023
Bloom Library 是一个多语言多模态数据集;其中含有 363 种语言,是目前包含语言最多的数据集之一,可用于低资源条件下的自然语言处理研究。
Oct, 2022
通过引入 CT-LLM,这项研究介绍了一个 2B 规模的大型语言模型(LLM),以优先考虑中文语言的发展。这项研究挑战了在英文语料库上培训 LLMs 并将其适应其他语言的常规模式,为 LLM 培训方法学的拓宽开创了新的可能性。
Apr, 2024
本文介绍了一种低秩适配器、基于对比目标的多语言大型语言模型 Siamese-BLOOM 和可扩展适配器 LoRA 以及 8 位 Adam 优化器,用于句子相似性分类。通过在 BLOOM 模型上应用对比目标的 Siamese 架构,解决了多语言标记数据稀缺的问题,并证明了从 LACoS-BLOOM 中学习到的嵌入质量与模型参数数量和未标记的训练数据量成比例,相对于以前的解决方案 Sentence-BERT,在英语和多语言 STS 任务上均取得了显着的改善。
May, 2023
为解决 LLMs 的高硬件和计算需求,本研究的主要动机是找到在模型轻量化和性能之间的平衡,力求在使用相对轻量级模型的同时最大限度地提高性能。Hyacinth6B 是为实现这一目标而开发的,旨在充分利用 LLMs 的核心能力,而不会产生重大的资源成本,并有效地推动较小型模型的性能边界。培训方法使用了参数高效的 LoRA 方法。
Mar, 2024