结构思维自动机:自回归语言模型的第一个形式化执行模型
本文介绍了一种名为RetoMaton的检索自动机,它可以在测试时间对检索的时间成本进行近似处理,从而构建了一个基于加权有限自动机的数据存储库,通过在推理时间与LM推理并行遍历自动机,可以将其困惑度降低高达1.85,或节省高达83%的最近邻搜索,而不会降低推理的准确性。
Jan, 2022
LMentry 是一个基准测试,它专注于一组对于人类来说比较容易的任务,可以快速测试大型语言模型的能力和鲁棒性,该测试揭示了不同类型的失败情况,为大型语言模型的评估提供了一种新的方法。
Nov, 2022
最近,大型语言模型(LLMs),特别是那些在代码上进行预训练的模型,展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而,这些模型的语言到代码生成能力缺乏全面的评估。本研究通过L2CEval系统地评估了LLMs在7个任务(包括语义解析、数学推理和Python编程)中的语言到代码生成能力,分析了可能影响它们性能的因素,如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能,我们还衡量了模型的置信度校准情况,并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval提供了对LLMs在语言到代码生成方面能力和限制的全面了解。同时,我们还发布了评估框架和所有模型输出,希望为今后在该领域的进一步研究奠定基础。
Sep, 2023
通过在主动学习环路中利用LLM的潜力进行数据标注,我们的提议在极低的数据需求下显著提高了性能,为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟,促进更广泛的包容,并有潜力在不同的语言环境中实现自动化。
Apr, 2024
该论文介绍了一种名为Think-and-Execute的新框架,它将语言模型的推理过程分解为两步:首先在思考阶段,发现共享于给定任务所有实例的任务级逻辑,然后用伪代码表达逻辑;然后在执行阶段,进一步针对每个实例调整生成的伪代码并模拟代码的执行。通过对七个算法推理任务进行大量实验证明了Think-and-Execute的有效性。相较于执行特定实例推理的强基线(例如CoT和PoT),我们的方法更好地提高了语言模型的推理能力,这表明发现任务级逻辑的帮助性。此外,我们还展示了相对于自然语言,伪代码可以更好地引导语言模型的推理,即使它们经过自然语言指导的训练。
Apr, 2024
使用十个较小、开放式的语言模型在任务类型、应用领域和推理类型等三个方面进行了深入的实验分析,比较评估了语言模型和提示样式,并且展示了这些模型在特定需求下的有效性,以及与 SOTA 语言模型的竞争能力。
Jun, 2024
本研究解决了大型语言模型在规划任务中的局限性,通过自动化搜索思维(AutoToS)来消除人类参与,从而提高搜索过程的健全性和完整性。该方法通过通用和特定领域的单元测试反馈,引导模型逐步生成有效的搜索组件,实现了所有评估领域100%的准确率,具有重要的实际应用潜力。
Aug, 2024
本研究针对优化推理的语言模型o1,探讨其是否仍然存在自回归的不足。通过分析,我们发现o1在处理常见任务的稀有变体时表现显著提升,但仍然显示出对例子和任务概率的敏感性。这表明,尽管优化可以缓解语言模型的概率敏感性,但可能无法完全克服这一问题。
Oct, 2024