结构思维自动机：自回归语言模型的第一个形式化执行模型

Jun, 2023

结构思维自动机：自回归语言模型的第一个形式化执行模型

Structured Thoughts Automaton: First Formalized Execution Model for Auto-Regressive Language Models

Tristan Vanderbruggen, Chunhua Liao, Peter Pirkelbauer, Pei-Hung Lin

TL;DR本研究提出第一个针对语言模型的执行模型，包含一种新的算法用于采样LM的预测结果，并引入了一种低级语言用于编写执行模型的“认知程序”，以期为LM提供执行模型的必要性和未来研究方向提供光明的展望。

Abstract

In recent months, language models (LMs) have become a part of daily discourse, with focus on OpenAI and the potential of artificial general intelligence (AGI). Furthermore, the leaking of LLama's weights to the p

发现论文，激发创造

使用自动机增强的检索进行神经符号语言建模

本文介绍了一种名为RetoMaton的检索自动机，它可以在测试时间对检索的时间成本进行近似处理，从而构建了一个基于加权有限自动机的数据存储库，通过在推理时间与LM推理并行遍历自动机，可以将其困惑度降低高达1.85，或节省高达83%的最近邻搜索，而不会降低推理的准确性。

Jan, 2022

LMentry:基本语言任务的语言模型基准测试

LMentry 是一个基准测试，它专注于一组对于人类来说比较容易的任务，可以快速测试大型语言模型的能力和鲁棒性，该测试揭示了不同类型的失败情况，为大型语言模型的评估提供了一种新的方法。

Nov, 2022

面向多步推理的小语言模型特化

揭示了将大规模语言模型进行特化，使其在特定任务上具有相对较强的表现的可能性，并使用多步数学推理作为测试，通过设计优化措施来提高其广义性能。

Jan, 2023

L2CEval: 评估大型语言模型的语言到代码生成能力

最近，大型语言模型（LLMs），特别是那些在代码上进行预训练的模型，展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而，这些模型的语言到代码生成能力缺乏全面的评估。本研究通过L2CEval系统地评估了LLMs在7个任务（包括语义解析、数学推理和Python编程）中的语言到代码生成能力，分析了可能影响它们性能的因素，如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能，我们还衡量了模型的置信度校准情况，并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval提供了对LLMs在语言到代码生成方面能力和限制的全面了解。同时，我们还发布了评估框架和所有模型输出，希望为今后在该领域的进一步研究奠定基础。

Sep, 2023

使用大型语言模型执行自描述算法：一项调查研究

研究表明，目前的大型语言模型（LLMs），特别是GPT-4，能够有效地执行用自然语言描述的程序，只要不涉及繁重的数值计算。

Feb, 2024

循环中的LLM：利用大型语言模型注释在低资源语言中进行主动学习

通过在主动学习环路中利用LLM的潜力进行数据标注，我们的提议在极低的数据需求下显著提高了性能，为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟，促进更广泛的包容，并有潜力在不同的语言环境中实现自动化。

Apr, 2024

语言模型作为编译器：模拟伪代码执行提升语言模型的算法推理能力

该论文介绍了一种名为Think-and-Execute的新框架，它将语言模型的推理过程分解为两步：首先在思考阶段，发现共享于给定任务所有实例的任务级逻辑，然后用伪代码表达逻辑；然后在执行阶段，进一步针对每个实例调整生成的伪代码并模拟代码的执行。通过对七个算法推理任务进行大量实验证明了Think-and-Execute的有效性。相较于执行特定实例推理的强基线（例如CoT和PoT），我们的方法更好地提高了语言模型的推理能力，这表明发现任务级逻辑的帮助性。此外，我们还展示了相对于自然语言，伪代码可以更好地引导语言模型的推理，即使它们经过自然语言指导的训练。

Apr, 2024

评估开放式语言模型在任务类型、应用领域和推理类型方面的性能：一项深入实验分析

使用十个较小、开放式的语言模型在任务类型、应用领域和推理类型等三个方面进行了深入的实验分析，比较评估了语言模型和提示样式，并且展示了这些模型在特定需求下的有效性，以及与 SOTA 语言模型的竞争能力。

Jun, 2024

搜索思维的自动化：迈向健全性和完整性的旅程

本研究解决了大型语言模型在规划任务中的局限性，通过自动化搜索思维（AutoToS）来消除人类参与，从而提高搜索过程的健全性和完整性。该方法通过通用和特定领域的单元测试反馈，引导模型逐步生成有效的搜索组件，实现了所有评估领域100%的准确率，具有重要的实际应用潜力。

Aug, 2024

当一个语言模型被优化以进行推理时，它是否仍然展现出自回归的余烬？对OpenAI o1的分析

本研究针对优化推理的语言模型o1，探讨其是否仍然存在自回归的不足。通过分析，我们发现o1在处理常见任务的稀有变体时表现显著提升，但仍然显示出对例子和任务概率的敏感性。这表明，尽管优化可以缓解语言模型的概率敏感性，但可能无法完全克服这一问题。

Oct, 2024