使用预训练语言模型生成数据集
本文对基于预训练语言模型的文本生成方法进行了综述,包括如何编码输入、设计生成模型、以及如何优化预训练语言模型以生成特定性质的文本;同时讨论了应用与存在挑战,总结了有用资源和应用举例,并提出了未来研究方向。
Jan, 2022
本研究挑战了从预训练语言模型(PLMs)中获得句子嵌入所必须的显式单字限制的普遍观点,并通过实验证明了这种方法对于判别模型或生成型 PLMs 的精调并非必需。在此基础上,我们提出了两种创新的提示工程技术,可以进一步增强 PLMs 原始嵌入的表达能力:假装的思路链和知识增强,并详细研究了导致其成功的潜在因素。
Apr, 2024
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023
本文提出了一种简单的方法,使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据,其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法,在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8,以及在 SST-2 上的 92.8),相对于零样本提示方法,甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时,采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。
Feb, 2022
本文综述了预训练语言模型在文本生成方面的主要进展,包括模型结构、输入数据的适配以及重要的微调策略。对于文本生成研究者而言,该综述提供了相关研究的综合和指引。
May, 2021
本文深入研究了基于预训练语言模型(PLMs)的关键短语抽取和生成的设计选择及其表现,发现在领域内使用类 BERT 的 PLMs 可以用于构建强大且数据有效的关键短语生成模型。而在固定参数预算的情况下,将模型深度优先于模型宽度,将更多的层分配给编码器,能够带来更好的编码器 - 解码器模型的表现。同时,在引入四个领域内的 PLMs 后,本文在新闻领域中实现了有竞争力的表现,在科学领域中实现了最先进的表现。
Dec, 2022
本文提出如何将 PLMs 应用到现有应用程序特定的生成基准上,对输入和输出语言等不同维度的 PLMs 在自然语言生成任务方面的优点和局限性进行了深入的实证研究,并分享了在开发新 PLMs 时考虑到的基准生成能力的最佳实践。
Jun, 2023
使用嘈杂标签,通过引导大型语言模型来提高预训练语言模型(PLM)的微调过程,以区分干净样本和嘈杂样本,并提供嘈杂标签之外的辅助信息,从而增强学习过程。
Nov, 2023
该研究提出了一个简单的数据增强框架,利用预训练和微调阶段获得的知识来生成伪数据,以进一步提高 PLMC 的性能,在 CodeXGLUE 基准测试中的代码摘要和代码生成等方面取得了显著的改进。
Apr, 2023