ACCORD: 缩小常识可测性差距

Jun, 2024

$\texttt{ACCORD}$: Closing the Commonsense Measurability Gap

François Roewer-Després, Jinyue Feng, Zining Zhu, Frank Rudzicz

TL;DR通过受控的多跳反事实，我们提出了一个框架和基准套件 $ exttt {ACCORD}$，用于解开大规模语言模型（LLMs）的常识基础和推理能力。通过引入形式化元素到常识推理中，$ exttt {ACCORD}$ 可以明确控制和量化推理复杂性，超越典型的 1 或 2 跳。基准测试最先进的 LLMs（包括 GPT-4o（2024-05-13）、Llama-3-70B-Instruct 和 Mixtral-8x22B-Instruct-v0.1）显示性能仅随着适度扩展而降至随机机会，为改进留下了充足的余地。我们公布了此工作中测试的基准套件的排行榜，以及用于自动生成更复杂基准测试的代码。

Abstract

We present $\texttt{ACCORD}$, a framework and benchmark suite for disentangling the commonsense grounding and reasoning abilities of large

$\texttt{accord}$commonsense grounding reasoning abilities benchmark suite llms

发现论文，激发创造

SCORE：自相矛盾推理评估框架

大型语言模型在各种基于语言的任务中展示了出色的推理能力。然而，在强化下游任务性能的许多推理方法提出之后，仍然存在两个基本问题：推理是否真正支持预测，以及推理质量的可靠性如何。本文提出了一个名为 \textsc {SCORE} 的框架，用于分析大型语言模型的推理能力。具体而言，我们关注自相矛盾的推理，即推理与预测不一致的情况。我们发现，在涉及上下文信息和常识的推理任务中，大型语言模型经常自相矛盾。模型可能会错过证据或使用捷径，从而表现出自相矛盾的行为。我们还使用了一种名为 Point-of-View (POV) 的方法作为诊断工具，从多个角度生成推理以进行进一步分析。我们发现，尽管大型语言模型在单一视角设置中表现良好，但在多视角设置中无法稳定该行为。即使对于正确的预测，推理也可能杂乱不堪且不完整，大型语言模型很容易被引导偏离良好的推理。\textsc {SCORE} 的结果凸显了可信赖的推理所需的缺乏鲁棒性，以及进一步研究建立超越准确性度量的推理的最佳实践的紧迫性。

Nov, 2023

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

COM2SENSE：具备互补句子的常识推理基准

本文旨在探讨预训练语言模型在常识推理数据集中的可靠性和全面性，并提出了一个新的包含自然语言真 / 假语句对的常识推理基准数据集，通过对不同维度的领域的知识、推理场景以及数学的设计来促进常识能力的系统分析，并设计了成对精度度量标准来可靠地衡量代理的常识推理能力。实验结果表明，我们最强的基线模型在微调后达到了约 71％的标准准确性和约 51％的成对准确性，远低于人类表现。

Jun, 2021

VerityMath: 自校验实现的数学推理与单位一致性的推动

通过定义单位并确保在数学运算过程中单位的一致性，我们提出了一种系统的方法来解决大规模语言模型在解决涉及跨多种类型或单位的数量的数学问题时面临的挑战。我们使用 Unit Consistency Programs（UCPs）为每个问题开发了一个带有单位规范和单位验证程序的数据集，并借助 UCPs 对 Code Llama（7B）模型进行了微调，从而产生了 VerityMath，并展示了我们的初步研究结果。

Nov, 2023

PECC：问题提取与编码挑战

通过 PECC 我们引入了一个新的基准，从 Advent of Code (AoC) 和 Project Euler 派生，旨在评估大型语言模型对嵌入式问题的理解和生成可执行代码的能力，进而成为通用问题解决器。

Apr, 2024

ReCoRD: 人机常识阅读理解之桥

本文介绍了一种称为 ReCoRD 的大型数据集，并在此基础上展示了机器阅读理解需要常识推理，即目前最先进的 MRC 系统表现远远落后于人类，因此该数据集为未来的研究提供了一个挑战，以弥合人类和现有机器的常识阅读理解之间的差距。

Oct, 2018

WikiContradict: 对维基百科上真实知识冲突的 LLM 评估基准

通过对大规模语言模型（LLMs）使用检索增强生成（RAG）来评估知识冲突的处理方法，特别是针对来源相同且具有相等可信度的检索到的段落，研究发现所有模型在提供包含相互矛盾的事实的两个段落时，都难以生成准确反映冲突性质的答案，尤其是对于需要推理的隐含冲突。为了促进未来的研究，通过引入一个自动化模型，该模型使用一个开源强大的语言模型估计 LLM 的性能，实现了 0.8 的 F 分数，并在所有 WikiContradict 实例上评估了来自七个 LLM 的 1500 多个答案。

Jun, 2024

评估大型语言模型的一致性和推理能力

大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务，然而，这些模型往往会产生不正确和误导性的信息，主要原因是一致性和推理能力的不足，因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力，并发现专有模型在一致性和推理能力方面通常优于公开模型，但即使面对基本的常识问题，没有一个模型在一致性和推理能力上都达到 90% 的得分。

Apr, 2024

GameBench：评估 LLM 代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT 和 RAP）能够提高分数。

Jun, 2024

ACCoRD：科学概念多文档生成多样化描述方法

提出 ACCoRD 系统来生成科学概念的多重描述，通过利用科学文献中提到概念的众多方式，以不同的参考概念为基础，生成对目标科学概念的不同、多样的描述。我们开发了一个标注工具 ACCoRD 语料库，包括 1,275 个标记上下文和 1,787 个手工编写的概念描述。通过用户研究表明 (1) 用户更喜欢我们的系统生成的描述，(2) 用户更喜欢多个描述而不是单一的 “最佳” 描述。

May, 2022