EconNLI: 对大型语言模型在经济推理上的评估

ACLJul, 2024

EconNLI: 对大型语言模型在经济推理上的评估

EconNLI: Evaluating Large Language Models on Economics Reasoning

Yue Guo, Yi Yang

TL;DR评估大型语言模型在经济领域的知识和推理能力，发现它们在经济推理方面不够成熟且可能产生错误或虚构的结果，提出了经济事件的自然语言推理数据集（EconNLI）以增强评估方法，认识到在涉及经济推理和分析的关键决策中使用大型语言模型存在局限性。

Abstract

large language models (LLMs) are widely used for writing economic analysis reports or providing financial advice, but their ability to understand economic knowledge and reason about potential results of specific

large language models economic events knowledge reasoning abilities limitations

发现论文，激发创造

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

大型语言模型能否取代经济选择预测实验室？

使用语言模型生成的数据能够有效地预测基于语言的说服游戏中的人类行为，并且在某些情况下超过基于实际人类数据训练的模型。

Jan, 2024

大型语言模型的事件推理综合评估

对 LLMs 的事件推理能力进行了综合评估，发现 LLMs 在事件推理方面的表现仍然不尽如人意。通过发现 LLMs 对事件推理能力存在的不平衡，提出了两种方法来指导 LLMs 利用事件模式知识，并获得了改进。

Apr, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

EconLogicQA：一个用于评估经济时序推理的大语言模型的问答基准测试

EconLogicQA 是一个旨在评估大型语言模型（LLMs）在经济学、商业和供应链管理领域中的顺序推理能力的严格基准。通过衍生自经济文章的多事件场景，EconLogicQA 要求模型区分和排序多个相互关联的事件，捕捉经济逻辑的复杂性。通过全面评估，我们展示了 EconLogicQA 在经济环境中导航顺序复杂性方面的有效性，并提供了对各种领先的 LLMs 在经济环境中顺序推理潜力的全面观点。我们的基准数据集可在此 URL 获取。

May, 2024

EvEntS ReaLM: 基于语言模型的实体状态事件推理

本文研究事件涵义的模型，通过探讨其对物理属性的理解能力来预测实体状态变化。作者发现，传统的大型语言模型无法很好地理解这方面的知识；而通过适当的提示方式，它们的性能可以得到极大的提升，尤其是对于未知的属性或数据信息不足的情况。

Nov, 2022

大型语言模型与协作中的因果推断：综合调查

因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时，这篇综述从因果的角度对生成大型语言模型进行评估和改进，从而理解和提高生成大型语言模型的推理能力，解决公平性和安全性问题，提供解释支持，并处理多模态数据。与此同时，生成大型语言模型强大的推理能力可以推动因果推断领域的发展，帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用，强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。

Mar, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

评估大型语言模型的干预推理能力

评估大型语言模型在干预作用下准确更新其对数据生成过程的知识的能力，以及对因果推断中不同因果图和变量类型的干预性推理的研究。研究结果表明，虽然 GPT-4 模型在预测干预效果方面表现出有希望的准确性，但它们对提示中的干扰因素仍然敏感。

Apr, 2024

大型语言模型的宏观经济预测

通过对比分析，本论文评估了大型语言模型和传统宏观时间序列预测方法的准确性。发现大型语言模型在宏观经济时间序列预测方面与传统方法相比存在优势和局限性。

Jul, 2024