语言模型如何帮助解决下游任务的数学探索
论文探究了预训练语言模型在 NLP 任务上的应用,提出了一种基于潜变量生成模型的分析框架,并分别分析了 head tuning 和 prompt tuning 两种方式,在合适的条件下潜变量和分类器之间的关系可以解决下游任务。作者在大量的合成实验中验证了该框架的可行性。
Jun, 2021
本文研究一类可以用于模型英语句子的形式语言,证明神经语言模型可以在此背景下零误差地解决下一个单词预测任务,强调了嵌入层和完全连接部件在神经语言模型中的不同作用。
Jun, 2023
该研究比较了四种不同的预训练目标(语言模型、翻译、跳跃思考和自编码)对模型学习语言信息和句法信息的影响,结果表明语言模型对于转移学习和需要句法信息的应用最为适合。
Sep, 2018
大型语言模型的性能在许多下游任务上都很高,但并非所有任务都能实现高性能。我们通过与下游基准测试的大规模比较,测试了预训练数据与任务数据之间的相似度是否与语言模型的性能相关。我们惊讶地发现,在其他基准测试中,相似度指标与准确性甚至彼此之间都没有相关性。这表明预训练数据与下游任务之间的关系比通常认为的更加复杂。
Nov, 2023
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码 - 回归 - 解码机器。
Aug, 2023
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。
Sep, 2021
本论文旨在探究离线强化学习和语言建模之间的潜在关系,通过使用 Transformer 模型对不同的离线强化学习任务进行预训练,并在各种与语言相关的任务上进行评估,结果表明,与使用语言建模的模型相比,我们的 RL 预训练模型具有接近的性能,从而验证了这两种模态之间存在着共同的有用特征,进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。
Sep, 2022
提出一种信息论干预的新型框架,以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘,从而使语言模型在保留语言能力的同时也具备数学推理的能力。
Nov, 2022