在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020
本文介绍了 TinyStories 数据集和一种新的评估语言模型的方法,该数据集使用 GPT-3.5 和 GPT-4 生成,只包含 3 到 4 岁儿童通常理解的单词。使用 TinyStories 可以训练和评估比现有模型小得多的语言模型,并引入新的评估范式来评估这些模型的语言能力和多维度的得分,例如语法、创造性和连贯性等。这可以促进低资源或专业领域的语言模型的发展、分析和研究,并提高对于语言模型能力的认识。
May, 2023
本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力,实验结果表明,通过多语言提示方案,在许多任务中,模型可以在少量示例和无样本学习中完成良好的表现。
Dec, 2021
本文介绍了两种自回归 GPT 类模型,使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索,展示了多种任务上的表现,包括分类、生成、序列标记和知识探测,在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。
Apr, 2022
通过对 GPT 和 T5 模型进行跨语言分类,本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本,且在跨语言预测方面表现显著优于随机预测,并与现有的最先进的跨语言模型具有竞争力。
Sep, 2021
本文探讨如何在较小模型的规模下,通过几何引导的自监督学习方法进行任务感知的自监督数据调整,实现与大型语言模型相当的零样本能力。Go-tuning 方法的实验表明 T5-small(80M)能够达到 T5-XL(3B)的竞争零样本结果,并开发了一个多任务模型 mgo-T5(250M),达到九个数据集的 OPT(175B)的平均性能。
Dec, 2022
揭示了将大规模语言模型进行特化,使其在特定任务上具有相对较强的表现的可能性,并使用多步数学推理作为测试,通过设计优化措施来提高其广义性能。
Jan, 2023
LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比,LM-BFF 组合的技术在低资源环境下具有显著改进,最高可达 30%,平均提高 11%。
Dec, 2020
该研究评估了使用不同参数和结构的小型语言模型在零射击文本分类中的性能,并发现小型模型在分类文本方面表现出色,与或超过了更大的模型,这一发现强调了资源高效的小型模型可能为特定的数据分类挑战提供可行的解决方案。
Apr, 2024
本文中,我们使用了零 shot 模型在 COLIEE 2022 的法律案例蕴含任务中进行了实验,并发现语言模型参数数量的增加可以提高 F1 分数,尤其是对于该任务。我们的 3B 零 shot 模型在 COLIEE 2021 测试集中表现优异,在 COLIEE 2022 比赛中也取得了最佳表现,其次是由 3B 模型本身和较小版本的模型组成的集成模型。此外,我们还演示了零 shot monoT5-3b 模型在生产中如何作为搜索引擎使用,包括用于法律文件。
May, 2022