预训练的生成式语言模型作为序列任务的通用学习框架

Feb, 2024

预训练的生成式语言模型作为序列任务的通用学习框架

Pretrained Generative Language Models as General Learning Frameworks for Sequence-Based Tasks

Ben Fauber

TL;DR我们提出，可以利用具有数百万参数的小型预训练基础生成性语言模型作为一种通用学习框架来处理基于序列的任务。我们的方法克服了从头开始训练神经网络和语言模型所面临的计算资源、技能和时间线挑战。此外，我们的方法专注于创建能够准确执行基础模型无法完成的挑战性任务的小型高度专业化模型。我们证明了使用 125M、350M 和 1.3B 参数的预训练基础语言模型可以通过 10,000 到 1,000,000 个指令示例进行指令微调，从而在具有挑战性的化学信息学任务上取得接近最先进的结果。我们还展示了连续语言模型微调周期对改善结果的作用，以及数据格式化和预训练基础语言模型选择对指令微调成功的重要性。

Abstract

We propose that small pretrained foundational generative language models with millions of parameters can be utilized as a general learning framework for sequence-based tasks. Our proposal overcomes the

pretrained foundational generative language models sequence-based tasks computational resource fine-tuning cheminformatics tasks

发现论文，激发创造

通过参数高效的迁移学习探索多功能生成式语言模型

本文提出一种有效的方式，利用单个、大型的预训练模型同时微调多个下游生成任务，以实现内存有效性的提升，同时在五个多样化的自然语言生成任务上的实验结果表明，仅使用每个任务额外的 2-3% 的参数，我们的模型可以维持或甚至提高整个模型的微调性能。

Apr, 2020

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

语言模型是通用接口

本文提出了使用语言模型作为各种基础模型的通用接口，弥合语言和其他模态的差异性，同时继承了语境训练和生成以及双向编码器的优点，实现了上下文学习、指导跟随等多种能力。实验验证表明，在各种语言和视觉语言基准测试中，我们的模型在微调、零 - shot 通用性和少 - shot 学习方面表现优异。

Jun, 2022

M6-Rec: 生成预训练语言模型是开放式推荐系统

通过利用现有的大规模预训练语言模型 M6，基于改进的 prompt tuning 算法和技术手段，建立了一个统一的基础模型，支持工业推荐系统中开放式的各种任务；实现了高效的推理和模型压缩，为检索、排序、零样本推荐、解释生成、个性化内容创建和对话式推荐等任务提供了通用性解决方案。

May, 2022

生成式大型语言模型是全能文本分析引擎：文本对文本学习是您所需的全部

通过基于生成型大型语言模型（LLM）的通用文本到文本学习架构和提示调优，解决主要的临床自然语言处理（NLP）任务，并提供了最新的性能。

Dec, 2023

用于交互式决策的预训练语言模型

使用语言模型（LM）进行预训练，可以帮助在一般的顺序决策问题中实现学习和泛化，并且在大量不同的环境和监督模态下实现组合泛化。

Feb, 2022

大型语言模型程序

通过使用嵌入式算法来扩展预训练语言模型的能力，作者提出了一种证据支持的问答方法来展示这种方法的优势，相比于传统的 fine-tuning 方法，该方法获得了 6.4％的改进。

May, 2023

从零开始的 NLP：一个简单高效的无大规模预训练的框架

提出了一种简单而高效的学习框架 TLM, 该框架不依赖于大规模预训练的语言模型，通过使用任务数据作为查询提取一小部分通用语料库，并从头开始联合优化任务目标和语言建模目标，在四个领域的八个分类数据集上实现了与预训练语言模型相当或更好的结果，而将训练 FLOPs 减少了两个数量级。

Nov, 2021

针对希伯来语自然语言处理的多语言序列到序列模型

使用序列生成结构的多语言模型能够更好的处理像希伯来语这样的形态丰富语言，从而提高希伯来语自然语言处理，与以往的编码器结构的预训练模型相比，取得了显著改善。

Dec, 2022

预训练语言模型表示用于语言生成

本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略，并将其应用于神经机器翻译和抽象摘要。实验证明，加入编码器网络的预训练表示是最有效的，可以在减慢推理速度仅 14％的情况下获得高达 5.3 BLEU 的增益，并且即使有数百万个句对可用时，仍然可以观察到改进。最后，在 CNN / DailyMail 的完整文本版本上，我们达到了最新的研究成果。

Mar, 2019