超越言辞：解读大型语言模型的数学框架

Nov, 2023

超越言辞：解读大型语言模型的数学框架

Beyond Words: A Mathematical Framework for Interpreting Large Language Models

Javier González, Aditya V. Nori

TL;DR大语言模型领域缺乏描述、比较和改进的数学框架，因此我们提出了 Hex 框架，该框架可以清晰地描述大语言模型研究中的关键术语和概念，如幻觉、对齐、自我验证和思考链。该框架为表征大语言模型、识别其优势和劣势以及整合新发现提供了精确和一致的方法。我们利用 Hex 将思考链推理与思考链提示区分开，并确定了它们等价的条件。这一区分澄清了思考链提示背后的基本假设及其对使用它的方法（如自我验证和提示编程）的影响。我们的目标是为大语言模型提供形式化框架，以帮助研究人员和从业者探索生成型人工智能的新可能性。我们并不声称拥有终极解决方案，而是提供了一个开启新研究方向的工具。我们认为，我们的形式定义和结果对于推动如何构建安全、可靠、公正和健壮的生成型人工智能系统的讨论至关重要，尤其是在医疗保健和软件工程等领域。

Abstract

large language models (LLMs) are powerful AI tools that can generate and comprehend natural language text and other complex information. However, the field lacks a mathematical framework to systematically describe, compare and improve LLMs. We propose Hex a framework that clarifies key

large language models hex framework chain-of-thought reasoning self-verification generative ai

发现论文，激发创造

大型语言模型为何能生成准确的思路连贯？

本文研究了大型语言模型（LLMs）的能力，特别关注于推进链式思维提示的理论理解。我们探究了如何有效诱导 LLMs 生成连贯的思维链条。为实现此目标，我们引入了一个适用于自然语言生成的两级分层图模型。在这一框架下，我们建立了一个具有吸引力的几何收敛率，用于衡量 LLMs 生成的思维链条与真实语言起源的思维链条之间的相似度。我们的发现为 LLMs 能够产生正确的思维序列提供了理论上的证明（潜在地）解释了在需要推理技能的任务中性能提升的原因。

Oct, 2023

知识增强大型语言模型的原则框架

这篇论文介绍了一个严格设计的框架，用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型，以提升其进行深入分析的能力，同时解剖了该框架的组成部分对模型性能的贡献，从而为改进推理能力提供了理论保证。

Nov, 2023

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024

思维算法：增强大型语言模型中的想法探索

我们提出了《Algorithm of Thoughts》，这是一种新的通过算法推动大型语言模型的算法推理路径的策略，以在上下文学习中扩展其思路探索，并超越了早期单查询方法和最近的多查询策略。

Aug, 2023

思维链中枢：评估大型语言模型推理性能的持续努力

提出了一个开源评估套件链式思维中心，用于评估大型语言模型在多步推理能力方面的性能，并针对一系列有挑战性的应用场景提供基准测试，目前的结果表明，模型规模与推理能力密切相关，需要更多开源社区的努力来构建更好的基础模型和探索 RLHF。

May, 2023

基于心理学的思路链引导大型语言模型理解隐喻

本文使用思维导向提示将概率模型结构引入了大型语言模型的上下文学习中，以推断潜在变量并选择合适的隐喻释义，从而改进了模型的模仿能力。

Sep, 2022

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

金融决策者的减少幻觉的数据到答案框架

通过利用 Langchain 框架将数据表转化为分层文本数据块，本研究提出了一种新颖的方法来解决数据表重型领域（如金融决策）中的自动问答问题，实现针对各种用户查询生成定制化的语言模型提示，并在幻觉和响应置信度方面进行了多度量标评估。该系统在用户查询响应方面取得了超过 90% 的置信度，并可应用于其他分析领域以确保最佳幻觉控制保障。

Nov, 2023

人类如何编写代码？大型模型也以相同方式进行

使用生成的可执行代码代替自然语言可以减少计算错误。本文介绍了一种通过自然语言生成问题解决方法，并将其转换为代码的方法，以提高大型语言模型在数学问题求解中的准确性。同时引入了近端策略优化算法和注意力机制，通过自我反馈和依赖自然语言推理解决方案来改进模型性能。在五个数学计算数据集上进行了实验证明了该方法的有效性。

Feb, 2024