不牺牲语言熟练度的情况下学习非语言技能
提出一种信息论干预的新型框架,以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘,从而使语言模型在保留语言能力的同时也具备数学推理的能力。
Nov, 2022
通过在大量数据集上进行多任务训练,我们展示了数值推理可以注入到预训练的语言模型中,使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练,我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美,同时在数学单词问题数据集上保持高性能,这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。
Apr, 2020
通过评估预训练语言模型对解决问题所需的不同数学技能的领域知识,本文提出了 NTKEval 方法来评估 LLM 概率分布变化的培训,发现当场景中学到的培训以及利用数学知识结构时存在领域理解。相比之下,某些指令调整导致类似的性能变化,无论培训数据不同,暗示了跨不同技能的领域理解缺乏。
May, 2024
研究表明,大型语言模型在将读写能力转化为计算能力方面存在翻译难题,但通过对所描述的四个复杂数据集的统计分析,结合不能通过简单规则编码或记忆的算术操作,可以推断大型语言模型具备对数据分组 / 枢轴分类求和、推导相关性、演绎特征权重以及使用线性回归预测海量数据的能力。
Jan, 2023
我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题,它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误,并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性,并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。
May, 2024
本文研究大语言模型在自然语言处理中的局限性,特别是无法学习一些基本语义属性,如语义蕴涵和一致性,以及不能学习超越 Borel 层次结构的概念,这对语言模型的语言理解能力产生了严重限制。
Jun, 2023
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
该研究论文阐述了当前的大语言模型非常强大,但其不易获得可能导致研究者新的语言计算方法的偏见和对原生主义的重视,并主张研究者们应该尽可能开源其大型语言模型的代码,以便让经验主义和混合方法保持可获得性。
Jan, 2023
本文研究了大型预训练语言模型在符号操作任务上的能力,发现其对于简单的符号操作任务如复制、反转、加法等存在局限,并提出了基于位置标记,细粒度计算步骤以及可调用程序的方法来解决该问题。结果显示,这些方法均无法完全解决最简单的加法归纳问题。最后,介绍了一种带有辅导的 LMs,可以在 OOD 和重复符号的情况下实现 100%的准确性。
Aug, 2022