Bloom 图书馆:支持 300 多种语言的多模态数据集,可用于各种下游任务
BLOOM 是一个 176B 参数的解码器 - 只有 Transformer 语言模型,它使用 ROOTS 语料库进行训练,并在多任务提示微调后达到了竞争力强的结果。该研究呼吁公开此类研究并在负责任的 AI 许可下发布其模型和代码,以便未来的研究和应用。
Nov, 2022
本文评估了覆盖 46 种语言的新型开放访问的大型多语种语言模型 BLOOM 在机器翻译上的表现,结果显示少量样本学习模式下,该模型在许多语言对中表现良好,但 0-shot 性能受到过度生成和错误语言生成的影响。
Mar, 2023
本文介绍了多语言语言模型 BLOOM-zh,以强化对繁体中文的支持。通过在传统中文和英语领域中增加 74 亿个标记的预训练,BLOOM-zh 在大多数传统中文基准测试中优于其前身。
Mar, 2023
通过评估较小的 BLOOM 模型变体(350m / 560m 和 1b3 / 1b7),我们发现:(1)与 GPT 和 BERT 等 LLM 不同,BLOOM 表现不随参数大小变化;(2)跨语言和多语言微调实验证明 BLOOM 与单语 GPT-2 模型相当或更差;(3)使用 RealToxicityPrompts 数据集的提示文本生成的毒性分析表明,BLOOM 生成的文本至少比 GPT-2 和 GPT-3 模型不良反应低 17%。
Nov, 2022
利用多语言语言模型与多语言语音编码器,本研究提出 BLOOMZMMS,旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法,我们验证了从文本到语音模态的语言知识的可传递性。实验证明,可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性,但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性,包括语音翻译和多语言口语理解,从而为语音领域应用大型语言模型开辟了新的途径。
Apr, 2024
该研究旨在提高 BLOOM 模型在未见过语言上的度量表现。研究发现,通过进行语言适应性策略来提高它的零样本度量表现是有效的,快速微调适配器比继续预训练更有效,语言度量表现主要取决于适应数据的大小。同时,通过将新语言添加到多任务微调混合中可以有效地教授 BLOOMZ 模型一种新语言。
Dec, 2022
该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS),该数据集由超过一百万个来自 BBC 的新闻文章组成,跨越 20 种语言,目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务,并在多语言环境下使用各种最先进的摘要技术报告了基准分数。
Feb, 2023
本文介绍了利用 11 亿的图文对数据(7.08 亿的韩语数据和 4.76 亿的英语数据)训练出的一种名为 KELIP 的韩 - 英双语多模态模型的简单而有效的训练方案,并证明了该模型在两种语言中的性能相当竞争力,同时讨论了一些与多模态相关的研究问题。
Mar, 2022
BigScience 团队创建了 Responsible Open-science Open-collaboration Text Sources (ROOTS) 语料库,这是一个包含 59 种语言和 1.6TB 数据的语料库,用于训练 1760 亿参数的 BigScience Large Open-science Open-access Multilingual (BLOOM) 语言模型,并释放了这一语料库的较大子集,希望为大规模单语和多语言建模项目提供数据和处理工具,并刺激关于这个大型多语言语料库的研究。
Mar, 2023
我们介绍了 BigBIO 项目,这是一个包含 126 个以上生物医学 NLP 数据集的社区库,可用于训练和评估语言模型,其数据集的元数据和编程访问支持元数据集合的构建,并且支持 End-to-End 的零样本任务。
Jun, 2022