大型语言模型除语言外还能学到什么？

EMNLPOct, 2022

大型语言模型除语言外还能学到什么？

What do Large Language Models Learn beyond Language?

Avinash Madasu, Shashank Srivastava

TL;DR本文调查了大型语言模型是否通过文本预训练会赋予这些模型有助于非语言推理的归纳偏差。通过对 19 个多样化的非语言任务进行试验，包括量化计算、识别正则表达式和对字符串的推理，我们发现预先训练的模型明显优于可比较的非预先训练的神经模型，即使在带有更少参数的情况下进行训练以适应模型正则化效应。同时，我们进一步探讨了不同文本领域对用户体验的影响，并发现即使在预训练多语言文本或计算机代码并生成合成语言的情况下，也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。

Abstract

large language models (LMs) have rapidly become a mainstay in Natural Language Processing. These models are known to acquire rich linguistic knowledge from training on large amounts of text. In this paper, we investigate if →

large language models pre-training inductive biases non-linguistic reasoning multi-lingual text

发现论文，激发创造

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

上下文学习的归纳偏置：重新思考预训练示例设计

该研究证明了预训练神经语言模型时通过将文本分成大小可处理的训练例子会引入偏差，导致预训练 NLM 可以模拟在同一训练示例中出现的文本片段之间比不同训练示例中出现的文本片段之间依赖性更强。此外，他们提出了一种名为 “kNN-pretraining” 的新算法，该算法通过将语义相关的非相邻句子包含在同一个预训练样例中来提高句子表示和开放领域问答能力。

Oct, 2021

研究预训练语言模型在跨领域数据集上，更接近通用人工智能的一步

本文研究了预训练语言模型在领域任务泛化能力方面的能力，发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色，优于从头开始训练模型，并指出预训练嵌入在输入层非常重要。

Jun, 2023

预训练语言模型的可迁移性研究：来自人工数据集的探讨

本文研究了预先训练语言模型在下游任务中表现卓越的特定特质，包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明，在预先训练数据的明确依赖关系中加入后，模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练，只要其能够模拟序列中的令牌依赖关系，仍然可以在某些语言任务中获得迁移能力。

Sep, 2021

探究预训练语言模型中的语言信息以进行逻辑推理

本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象，发现预训练语言模型对于一些推理所需要的语言信息进行了编码，同时也发现了有一些信息的编码比较弱，但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。

Dec, 2021

使用类人开发数据文集预训练 LLMs

利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。

Nov, 2023

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

大型知识模型：视角与挑战

人类对世界的理解与我们的感知和认知密切相关，其中人类语言作为世界知识的重要承载者之一。本文通过 “知识” 这个视角来探索大型模型，并讨论符号知识如何增强大型语言模型以及大型语言模型如何扩展传统符号知识基础。考虑到人类知识的复杂性，我们倡导创建专门管理多样化知识结构的大型知识模型，并提出了五个 “A” 原则来区分 LKM 的概念。

Dec, 2023

基于语言和领域的大型语言模型的预训练和更新：一个日本商业领域的案例研究

本研究通过结合非英语语言和高需求产业领域的研究，探讨了一种特定于日本商业领域的大型语言模型（LLM）。我们从头开始训练了一个 130 亿参数的 LLM，使用了一组新的商业文本和专利，并持续使用最新的商业文件进行预训练。随后，我们提出了一个新的日本商业领域问题回答（QA）基准，并对我们的模型进行了评估。结果表明，我们的预训练模型提高了 QA 的准确性，并且在不损失一般知识的情况下不断适应新信息。我们的预训练模型和商业领域基准已公开提供。

Apr, 2024