mGPT: 少样本学习器转向多语言
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020
本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力,实验结果表明,通过多语言提示方案,在许多任务中,模型可以在少量示例和无样本学习中完成良好的表现。
Dec, 2021
通过对 GPT 和 T5 模型进行跨语言分类,本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本,且在跨语言预测方面表现显著优于随机预测,并与现有的最先进的跨语言模型具有竞争力。
Sep, 2021
该研究通过将文本输入转换为包含任务描述的填空问题,并结合梯度优化和利用未标记数据,成功地创造了小型语言模型,达到了与 GPT-3 相似的性能,为小型语言模型的成功应用提供了关键因素。
Sep, 2020
使用本地生成预训练转换器(GPT)模型进行零 - shot 黑盒多自然语言翻译成英文文本,评估并比较不同开源 GPT 模型在语言翻译准确性上的表现。
Apr, 2024
我们介绍 GPT-NeoX-20B,它是一个由 200 亿个参数构成的自回归语言模型,在 Pile 上训练,其权重将通过一个宽松的许可证向公众免费开放。在该工作中,我们描述了模型的架构和训练,并评估了其在一系列语言理解、数学和基于知识的任务上的表现。我们发现,在五次少量数据(few-shot)评估时,GPT-NeoX-20B 是一个特别强大的 few-shot 推理器,并且在性能上比同样大小的 GPT-3 和 FairSeq 模型有更大的提升。我们在该 https URL 上开源了训练和评估代码,以及模型权重。
Apr, 2022
本研究提出了一种方法,将分布式训练性能纳入模型架构设计中,用于构建 245B 参数的大型单例语言模型 Yuan 1.0,在千万台 GPU 上取得了优异的性能,并在自然语言处理任务中取得了最新成果,同时还建立了当前质量最高的 5TB 中文语料库。此外,本研究还提出了数据处理方法和校准与标签扩展方法,以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力,其生成的文章很难与人类撰写的文章区分开来。
Oct, 2021
多语言语言模型的综合评估:mBERT、XLM-R 和 GPT-3 在具有不同语言环境的各种语言上的性能评估,发现资源可用性对模型性能有重要影响,并且资源可用性、语言家族和脚本类型之间存在复杂关系,为模型选择和部署提供了见解。
Oct, 2023
该论文介绍了一个用于阿拉伯语的强大的自回归 Transformer 语言模型套件 JASMINE,用于 zero 和 few-shot 学习和广泛的 NLP 任务基准测试,旨在填补该领域在不同语言环境和文化中的问题和缺陷以及在这些模型中潜在的社会偏见、伤害和毒性方面的新基准测试。
Dec, 2022
AutoML-GPT 框架结合了多种工具和库,通过对话界面,用户可以指定需求和约束条件,实现数据预处理、特征工程和模型选择等操作,从而显著减少机器学习任务所需的时间和工作量。它能充分利用大型语言模型中的知识,为模型训练过程中的常见挑战提供宝贵见解和有效解决方案。
Sep, 2023