不牺牲语言熟练度的情况下学习非语言技能

ACLMay, 2023

不牺牲语言熟练度的情况下学习非语言技能

Learning Non-linguistic Skills without Sacrificing Linguistic Proficiency

Mandar Sharma, Nikhil Muralidhar, Naren Ramakrishnan

TL;DR本文提出了一种基于信息论干预和特定技能损失的新型非语言技能注入框架，可使 LLMs 学习严格的算术推理，相比注入非语言技能和保持语言知识的现有技术，我们的模型在使用少量数据且不产生额外合成语言训练数据的情况下表现更好。

Abstract

The field of math-nlp has witnessed significant growth in recent years, motivated by the desire to expand LLM performance to the learning of non-linguistic notions (numerals, and subsequently, arithmetic reasoning

math-nlp catastrophic forgetting non-linguistic skill injection arithmetic reasoning information theoretic interventions

发现论文，激发创造

克服语言模型中技能注入的障碍：以算术为例的案例研究

提出一种信息论干预的新型框架，以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘，从而使语言模型在保留语言能力的同时也具备数学推理的能力。

Nov, 2022

将数字推理技能注入语言模型

通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Apr, 2020

超越模式匹配学习？对 LLM 中的数学理解进行评估

通过评估预训练语言模型对解决问题所需的不同数学技能的领域知识，本文提出了 NTKEval 方法来评估 LLM 概率分布变化的培训，发现当场景中学到的培训以及利用数学知识结构时存在领域理解。相比之下，某些指令调整导致类似的性能变化，无论培训数据不同，暗示了跨不同技能的领域理解缺乏。

May, 2024

由语言模型发展而来的数据科学：从文科到数科

研究表明，大型语言模型在将读写能力转化为计算能力方面存在翻译难题，但通过对所描述的四个复杂数据集的统计分析，结合不能通过简单规则编码或记忆的算术操作，可以推断大型语言模型具备对数据分组 / 枢轴分类求和、推导相关性、演绎特征权重以及使用线性回归预测海量数据的能力。

Jan, 2023

LLMs 错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024

使用语言模型的学习界限

本文研究大语言模型在自然语言处理中的局限性，特别是无法学习一些基本语义属性，如语义蕴涵和一致性，以及不能学习超越 Borel 层次结构的概念，这对语言模型的语言理解能力产生了严重限制。

Jun, 2023

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

无法访问的神经语言模型可能会再次激活语言天赋主义

该研究论文阐述了当前的大语言模型非常强大，但其不易获得可能导致研究者新的语言计算方法的偏见和对原生主义的重视，并主张研究者们应该尽可能开源其大型语言模型的代码，以便让经验主义和混合方法保持可获得性。

Jan, 2023

语言模型在算术和符号归纳中的局限性

本文研究了大型预训练语言模型在符号操作任务上的能力，发现其对于简单的符号操作任务如复制、反转、加法等存在局限，并提出了基于位置标记，细粒度计算步骤以及可调用程序的方法来解决该问题。结果显示，这些方法均无法完全解决最简单的加法归纳问题。最后，介绍了一种带有辅导的 LMs，可以在 OOD 和重复符号的情况下实现 100％的准确性。

Aug, 2022