EconLogicQA：一个用于评估经济时序推理的大语言模型的问答基准测试

May, 2024

EconLogicQA：一个用于评估经济时序推理的大语言模型的问答基准测试

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

Yinzhu Quan, Zefang Liu

TL;DREconLogicQA 是一个旨在评估大型语言模型（LLMs）在经济学、商业和供应链管理领域中的顺序推理能力的严格基准。通过衍生自经济文章的多事件场景，EconLogicQA 要求模型区分和排序多个相互关联的事件，捕捉经济逻辑的复杂性。通过全面评估，我们展示了 EconLogicQA 在经济环境中导航顺序复杂性方面的有效性，并提供了对各种领先的 LLMs 在经济环境中顺序推理潜力的全面观点。我们的基准数据集可在此 URL 获取。

Abstract

In this paper, we introduce econlogicqa, a rigorous benchmark designed to assess the sequential reasoning capabilities of →

econlogicqa large language models sequential reasoning economic contexts benchmark

发现论文，激发创造

EconNLI: 对大型语言模型在经济推理上的评估

评估大型语言模型在经济领域的知识和推理能力，发现它们在经济推理方面不够成熟且可能产生错误或虚构的结果，提出了经济事件的自然语言推理数据集（EconNLI）以增强评估方法，认识到在涉及经济推理和分析的关键决策中使用大型语言模型存在局限性。

Jul, 2024

AQA-Bench：一个用于评估 LLMs 顺序推理能力的互动基准

该研究介绍了 AQA-Bench，这是一个评估大规模语言模型在算法环境中的顺序推理能力的新型基准。我们的评估基准的关键特点在于其互动评估协议，通过深度优先搜索等算法，每个节点的连接边的可用性取决于模型对该节点的遍历方式，从而需要 LLM 有效地记住访问过的节点并策略性地进行后续移动。我们全面构建了 AQA-Bench，并使用二分搜索、深度优先搜索和广度优先搜索来评估 12 个不同 LLM 的顺序推理能力。我们的研究发现了一些有趣的结果：（1）像 GPT-4 和 Gemini 这样的闭源模型通常表现出较强的顺序推理能力，明显优于开源 LLM。（2）提供简单的交互式示例可能会无意中损害少样本性能。（3）在遵循最优策略的前继步骤数量非常有限的情况下，可以大幅提升小模型的性能。（4）性能和模型大小之间的缩放相关性并不总是显著的，有时甚至显示出相反的趋势。我们希望我们的研究能推动未来对于推进对 LLM 顺序推理能力的理解和增强的研究。代码可在链接 https URL 找到。

Feb, 2024

NovelQA: 一个长距离小说问答基准

使用英文小说构建的 NovelQA 评估长上下文具有深层文本理解能力的 LLMs 的表现，结果强调了 LLMs 在多次推理、注重细节的问题和超过 100,000 个标记的极长输入方面面临的挑战，强调了进一步改进 LLMs 以提高其长上下文理解和计算文学研究的必要性。

Mar, 2024

让 LLMs 应对最新挑战！一个中文动态问答基准测试

为了提高中文大型语言模型（LLMs）的问答能力，本文引入了 CDQA，这是一个包含与中国互联网最新新闻相关的问答对的中文动态问答基准，通过人工和模型相结合的流程获得高质量的数据，根据答案变化的频率仔细分类样本以便更精细地观察 LLMs 的能力，我们还评估和分析了 CDQA 上的主流和先进的中文 LLMs，广泛的实验和有价值的见解表明我们提出的 CDQA 是具有挑战性和值得进一步研究的，我们相信我们提供的基准将成为未来改善 LLMs 中文问答能力的关键数据资源。

Feb, 2024

LogiQA：面向机器阅读理解的逻辑推理挑战数据集

通过构建名为 LogiQA 的全面数据集，了解了人类逻辑推理能力方面的基本能力在机器阅读中如何得到充分研究。结果表明，最先进的神经模型远不及人类的水平。其数据集也可作为深度学习 NLP 环境下重新研究逻辑 AI 的基准。

Jul, 2020

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

RepLiQA：用于评估 LLMs 在未见参考内容上的问答数据集

通过介绍一个名为 RepLiQA 的新测试数据集，本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题，并通过对各种型号和规模的模型进行基准测试，揭示它们在不同情境条件下的性能差异。

Jun, 2024

BizBench：商业和金融的定量推理基准

评估金融推理能力的基准和挑战性问题 BizBench，通过三个财务领域的代码生成任务对大型语言模型进行了全面深入的评估，并表明 BizBench 是金融和商业领域量化推理的一个具有挑战性的基准模型。

Nov, 2023

通过语义一致性预测大型语言模型的问答性能

我们通过手动创建一个高质量的事实问答近义词语料库，并与先前工作中的其他相关度量标准相结合，以评估现代大型语言模型（LLMs）的语义一致性，以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估，我们展示了令人鼓舞的结果，显著超越了基线水平。

Nov, 2023

活在当下：大型语言模型能否把握同时推理？

本研究介绍了 CoTempQA，一个包含四个共时场景的 QA 基准数据集，用于评估大型语言模型的共时理解和推理能力，发现当前模型在 CoTempQA 任务上表现明显低于人类水平，甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索，发现数学推理在处理共时事件中起着重要作用，并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。

Jun, 2024