双层训练与解码的大型语言模型:思考与表达的同时进行
该论文介绍了一种新方法,即通过多个语言模型实例的反复辩论和推理过程,以达成一个共同的最终答案,从而改善语言响应的表现,特别是在数学和策略推理方面,改善了已有模型中一些常见问题,如虚假答案和幻觉现象,并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。
May, 2023
我们提出了《Algorithm of Thoughts》,这是一种新的通过算法推动大型语言模型的算法推理路径的策略,以在上下文学习中扩展其思路探索,并超越了早期单查询方法和最近的多查询策略。
Aug, 2023
本文研究了大型语言模型(LLMs)的能力,特别关注于推进链式思维提示的理论理解。我们探究了如何有效诱导LLMs生成连贯的思维链条。为实现此目标,我们引入了一个适用于自然语言生成的两级分层图模型。在这一框架下,我们建立了一个具有吸引力的几何收敛率,用于衡量LLMs生成的思维链条与真实语言起源的思维链条之间的相似度。我们的发现为LLMs能够产生正确的思维序列提供了理论上的证明(潜在地)解释了在需要推理技能的任务中性能提升的原因。
Oct, 2023
在本研究中,我们分析了当代大型语言模型对人类概念及其结构的理解程度,并讨论了发展具备概念意识的语言模型的方法,包括在不同阶段引入预训练和利用现有语言模型输出的简化方法。通过证明概念意识语言模型的初步结果,我们证明了其能够更好地符合人类直觉,提高了预测的稳定性,展示出了概念意识语言模型的潜力。
Nov, 2023
大型语言模型,如GPT-4,在广泛的基于语言的任务中取得了显著的熟练度,这些任务中有些传统上与人类智能的标志相关联。这引发了关于我们能否将任何语言模型归属于语言或认知能力的程度的持续争议。本文是两篇相关论文的第一部分,旨在为哲学家提供关于语言模型的介绍,并对其与哲学、认知科学、人工智能和语言学领域中经典辩论的重要性进行主观调查。我们涵盖的主题包括语言的组成性、语言习得、语义能力、基础、世界模型和文化知识的传输。我们认为,语言模型的成功挑战了人们对人工神经网络的一些长期假设。然而,我们还强调了进一步的实证研究以更好地了解它们的内部机制的需要。这为第二部分的相关论文提供了基础,第二部分将探讨关于语言模型最新发展引发的新的实证方法和哲学问题。
Jan, 2024
通过受到双系统认知理论启发的 DECIDER 规则可控解码策略,本文提出了一种基于词典的约束解码方法,旨在通过特定目标概念来控制生成文本的意义或风格,实验证明 DECIDER 可以以更接近人类的方式遵循给定的规则引导生成方向,从而有效地控制生成结果。
Mar, 2024
通过链式思维微调策略,我们提出了一种强大的后语义思考策略(Post-Semantic-Thinking, PST),旨在通过在表达方式上不受限制地生成答案,使得小型学生模型能够更好地理解基于语义推理的逻辑。广泛的实验在12个推理任务上证明了PST的有效性。
Apr, 2024
通过从人类大脑的神经机制,如 Broca 区和 Wernicke 区获取灵感,我们提出了 BWArea 模型,该模型将语言生成视为决策任务,其预训练性能不会因聚集到的错误数据而退化,并通过微调与下游奖励度量相结合来实现更好的可控性和性能。
May, 2024
我们引入“思绪缓冲区”(Buffer of Thoughts,BoT),这是一种新颖而多用途的思绪增强推理方法,可提高大型语言模型(Large Language Models,LLMs)的准确性、效率和鲁棒性。通过引入元缓存器(meta-buffer)来存储一系列信息丰富的高级思维模板,我们能够从各种任务的问题解决过程中抽取思维模板。然后,对于每个问题,我们检索相关的思维模板,并灵活地用具体的推理结构来实例化它,以进行高效的推理。为了保证可扩展性和稳定性,我们进一步提出了缓冲器管理器(buffer-manager)来动态更新元缓存器,从而增强元缓存器的容量以适应更多的任务。我们对10个具有挑战性的推理密集型任务进行了大量实验,与之前的最先进方法相比,取得了显著的性能改进:24点游戏提升11%、几何形状提升20%、以及一步将军提升51%。进一步分析显示了我们的BoT具有优越的泛化能力和模型鲁棒性,而平均只需要多查询提示方法的12%成本(例如,思维树/图)。值得注意的是,我们发现我们的Llama3-8B+BoT具有超越Llama3-70B模型的潜力。我们的项目网址为:https://example.com
Jun, 2024
本研究针对大型语言模型(LLMs)作为黑箱系统的现状,探讨它们内部机制中的注意头,通过四阶段框架分析人类思维过程,旨在揭示推理瓶颈的本质。结果表明,特定的注意头在推理过程中扮演了关键角色,为LMMs的进一步优化提供了新思路。
Sep, 2024