语言模型:少样本多语言学习者
本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力,实验结果表明,通过多语言提示方案,在许多任务中,模型可以在少量示例和无样本学习中完成良好的表现。
Dec, 2021
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020
本文介绍了两种自回归 GPT 类模型,使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索,展示了多种任务上的表现,包括分类、生成、序列标记和知识探测,在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。
Apr, 2022
本文在多语言和交叉语言设置下,通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。
Jun, 2023
本文研究了预训练语言模型在领域任务泛化能力方面的能力,发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色,优于从头开始训练模型,并指出预训练嵌入在输入层非常重要。
Jun, 2023
本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异,探讨了 LLMs 的跨语言概括现象,结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。
May, 2023
大型语言模型的新兴能力是利用少量示例来学习在新领域和任务中执行的能力,本文通过针对专门的培训目标进行微调展示了一个更小的模型可以被训练用于执行上下文学习,在神经机器翻译的领域适应任务上进行了示例。通过这种上下文学习的能力,模型可以利用相关的少量示例将其输出适应到该领域。我们将这种域自适应的质量与传统的监督技术以及基于 400 亿参数的大型语言模型的上下文学习进行了比较。我们的方法允许对多个领域进行高效的批处理推理,并在翻译质量和即时适应率方面优于现有技术基线,也就是在展示一次示例后重新生成特定术语的能力。
Sep, 2023
本文从贝叶斯的角度出发,将大型语言模型视作主题模型,提出了一种从标注数据中选择最佳示范的算法,并在实际数据集中证明相对于随机选择基线,平均有 12.5% 的显著改进。研究表明,大型语言模型从示范中隐式地推断出潜在的概念变量。
Jan, 2023
该研究通过将文本输入转换为包含任务描述的填空问题,并结合梯度优化和利用未标记数据,成功地创造了小型语言模型,达到了与 GPT-3 相似的性能,为小型语言模型的成功应用提供了关键因素。
Sep, 2020
本文探讨自然语言理解、对话状态跟踪、对话策略和自然语言生成这四个模块在少数据样本下学习的挑战,并评估了使用自然语言生成模型进行少样本迁移学习的效果和局限性,为未来研究提供了启示。
Aug, 2020