TART: 适用于任务无关推理的即插即用的Transformer模块

Jun, 2023

TART: 适用于任务无关推理的即插即用的Transformer模块

TART: A plug-and-play Transformer module for task-agnostic reasoning

Kush Bhatia, Avanika Narayan, Christopher De Sa, Christopher Ré

TL;DR提出了一种名为TART的任务无关的Transformer-based推理模块，使用一组合成功能，来提高不同种类、大小和模态的预训练模型（包括视觉和语音模型）在多个NLP分类任务上的性能，甚至使得GPT-Neo(125M)的性能超过BLOOM(176B)，与GPT-3(175B)的性能相差不到4%。

Abstract

large language models (LLMs) exhibit in-context learning abilities which enable the same model to perform several tasks without any task-specific training. In contrast, traditional adaptation approaches, such as

发现论文，激发创造

使用大型语言模型进行可解释的逻辑推理的Selection-Inference方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

大型语言模型仍无法规划 (面向规划和变化推理的LLM基准测试)

该研究提出了一种可扩展的评估框架来测试LLMs在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于LLMs推理能力的夸张的说法，并展示了GPT-3、Instruct-GPT3和BLOOM对这些任务的表现不佳。

Jun, 2022

GPT-Neo用于常识推理——理论和实践视角

本文评估了GPT-neo 1.3亿模型在常识推理任务上的表现，发现模型在某些任务上具有竞争力，但当数据集大小显著较小时表现会很差。研究者还使用可视化和推理测试来证实结果，并通过多种方法进行彻底的健壮性测试。

Nov, 2022

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

A & B == B & A：在大型语言模型中触发逻辑推理失败

我们引入了LogicAsker，它是一种自动方法，全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力，并揭示了LLM未能学好的逻辑规则。我们评估了LogicAsker在GPT-3、ChatGPT、GPT-4、Bard、Vicuna和Guanaco等主要的大型语言模型上，并展示了LogicAsker的测试用例在不同LLM中发现逻辑推理错误的比率从25%到94%不等。此外，LogicAsker的测试用例可以进一步用于设计上下文学习的演示例子，有效提高LLM的逻辑推理能力，如GPT-4提高了10%。据我们所知，我们的工作是首次基于测试结果创建提示来有效提高LLM的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。

Jan, 2024

通过代码从LLMs中引出更好的多语言结构化推理

大型语言模型在多语言结构推理和解释数据集xSTREET上表现出进展，通过使用机器翻译增强具有多语言评论的代码数据集，以及在推理时使用包含逐步代码原语的提示结构，提供了改善多语言性能的两种方法。

Mar, 2024

有意义的学习：通过通用事实指导提升大型语言模型的抽象推理能力

我们设计了一个初步的研究，以量化和深入探讨现有大型语言模型的抽象推理能力。我们的结果显示，我们的方法不仅提高了大型语言模型的一般推理性能，而且在抽象推理能力方面取得了可观的进展，从简单的记忆或模仿转向了更加精细的对通用事实的理解和应用。

Mar, 2024

LLM推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

DiPT：通过多元视角提升大型语言模型推理能力

本研究解决了现有语言模型推理方法单一且易出错的问题，提出了一种名为DiPT的新方法，通过明确纳入多元视角来提升推理能力。实验结果表明，DiPT可灵活整合到现有方法中，提高模型的推理表现和稳定性，同时通过丰富数据提升模型的推理能力。

Sep, 2024

TART: 一个开源工具增强框架用于可解释的表格推理

本研究解决了大型语言模型在理解表格结构和进行精确数值推理方面的局限，提出了一种集成了专业工具的工具增强框架TART。实验表明，TART在数据处理精度和推理过程清晰度方面显著优于现有方法，尤其是在与CodeLlama结合时，准确率达到了闭源模型GPT-3.5-turbo的90%。

Sep, 2024