语言建模的思维标记

May, 2024

Thinking Tokens for Language Modeling

David Herel, Tomas Mikolov

TL;DR当语言模型遇到复杂的计算问题时，由于其不能执行复杂的推理，它们通常会出现错误。为了增强语言模型的泛化能力，并与人类行为相对应，我们提出使用特殊的 “思考标记”，使模型在遇到复杂问题时能够执行更多计算。

Abstract

How much is 56 times 37? language models often make mistakes in these types of difficult calculations. This is usually explained by their inability to perform →

language models calculations complex reasoning generalization capability thinking tokens

发现论文，激发创造

语言模型的数值计算能力：从记忆到计算

该研究调查了语言模型在计算预测和问题解决能力方面的应用，以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本，该研究成功地训练了一个轻量级语言模型，并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设，即语言模型在适当的内部表示映射后，计算发生在数值空间中，其工作类似于一个编码 - 回归 - 解码机器。

Aug, 2023

用计划标记引导语言模型推理

最近大型语言模型（LLMs）因其执行复杂的推理任务的能力而引起了相当大的关注，但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法，而忽视了模型推理能力的结构方面。在我们的研究中，我们发现 LLMs 能够很好地处理个别的推理步骤，却在整个推理链上保持一致性方面遇到困难。为了解决这个问题，我们在每个推理步骤的开始引入了 “规划标记”，作为模型的指南。然后，这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道（仅占总参数的 0.001%），可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的 LLMs，并对三个数学问题数据集进行了评估，展示了我们方法的有效性，相对于原始的链式思维微调基准，取得了显著的准确性提升。

Oct, 2023

人类如何编写代码？大型模型也以相同方式进行

使用生成的可执行代码代替自然语言可以减少计算错误。本文介绍了一种通过自然语言生成问题解决方法，并将其转换为代码的方法，以提高大型语言模型在数学问题求解中的准确性。同时引入了近端策略优化算法和注意力机制，通过自我反馈和依赖自然语言推理解决方案来改进模型性能。在五个数学计算数据集上进行了实验证明了该方法的有效性。

Feb, 2024

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

大型语言模型在算术任务中的表现如何？

本研究提出一个数学计算数据集 MATH 401，用于测试最新的大型语言模型（包括 GPT-4，ChatGPT 等）在解决数学单词问题时的算术能力，并提供了能力的详细分析。

Mar, 2023

克服语言模型中技能注入的障碍：以算术为例的案例研究

提出一种信息论干预的新型框架，以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘，从而使语言模型在保留语言能力的同时也具备数学推理的能力。

Nov, 2022

大型语言模型的过度推理和冗余计算

LLMs tend to generate lengthy and unnecessary calculations on the math QA dataset GSM8K-Zero, even though the questions can be answered without any calculations.

Jan, 2024

语言模型轻松完成难算术任务，但几乎不能完成简单算术任务

大型语言模型在进行算术任务中对多位数乘法的可信准确预测能力较强，而对单位数乘法可信准确预测的能力较差，但在给出正确的高位数字作为条件下，后者任务的可信准确预测能力可以大幅提升。

Jun, 2024

结构化、灵活、鲁棒：针对超出分布推理任务对大型语言模型进行基准测试和改进，以实现更类似于人类的行为

人类语言在思维和学习结构方面发挥重要作用。本文提出了一个挑战测评与深度学习语言模型相比人类表现的基准，并通过提供结构化符号推理模块来拓展深度学习语言模型，以使其更符合人类推理。实验表明，在语言表达能力、泛化能力等方面，人类远远优于 LLMs，这说明混合 AI 模型具有更接近人类推理的潜力。

May, 2022

起步最困难：大规模语言模型对于时间数据的表示和分词的陷阱

介绍了大型语言模型（LLMs）在移动健康感知等人类中心任务中的使用，并通过案例研究证明了目前流行的 LLMs 对于时间数据的分词处理存在错误，提出了解决方案如轻量级嵌入层调整和多模态适配器来弥合模态差异。该论文强调了语言模型在处理输入细微差别时无法产生有意义的输出。

Sep, 2023