WorldSense：大型语言模型中基于实例推理的合成基准测试

Nov, 2023

WorldSense：大型语言模型中基于实例推理的合成基准测试

WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large Language Models

Youssef Benchekroun, Megi Dervishi, Mark Ibrahim, Jean-Baptiste Gaya, Xavier Martinet...

TL;DR我们提出了 WorldSense，这是一个用于评估 LLMs 在从简单实体排列的描述中进行简单推理时所能维持的隐式世界模型的程度的基准测试。我们在三个最先进的聊天 LLMs（GPT3.5，GPT4 和 Llama2-chat）上运行我们的基准测试，并显示这些模型在只有三个对象时也会出错。此外，它们具有相当大的响应偏差，无论问题如何，它们都更喜欢特定的响应。错误甚至在思维链提示和上下文学习中仍然存在。最后，我们展示了虽然在类似问题上进行微调确实带来了可观的改进 —— 在内部和超出分布范围内 —— 但是微调的模型并没有超越约束问题空间的普适性。

Abstract

We propose worldsense, a benchmark designed to assess the extent to which llms are consistently able to sustain tacit world models, by tes

worldsense llms benchmark errors finetuning

发现论文，激发创造

从形式到含义：利用多义一致性探测语言模型的语义深度

大规模语言模型的理解能力在不断增长，但与人类理解相比仍存在差距，特别是在多义一致性方面，这对它们在学习人类语言和理解方面的效用产生了影响。

Apr, 2024

使用语义级别精度和扩展词汇探究预训练语言模型中常识知识

本研究探讨了如何在大型语言模型中丰富常识知识，并提出了一种基于 WordNet 的实化感知库对语言模型进行增强的方法，从而提高掩蔽式任务的预测精度。通过自我监督学习，在不进行进一步训练的情况下，实现了从 WordNet、WikiData 和 ConceptNet 中获取非平凡的常识知识，并比类似的基于相似性的方法更加有效。

Oct, 2022

挑战 LLMs 的推理能力：揭示 LLMs 中的认知深度的基准测试

我们引入了一种新颖的评估范式来评估大型语言模型，这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷，传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估，能够有效区分模型之间的认知能力。例如，在我们的基准测试中，GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试（如 GSM8K）未能发现的语言模型的潜在认知缺陷，这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型，揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变，而且对于关于人工通用智能（AGI）的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用，我们旨在促进对 LLM 真正认知能力的更准确评估。

Dec, 2023

通过多语言的一致性评估任务理解：ChatGPT 案例研究

本文提出了一种新的方法，通过评估 LLM 在不同意义的一致性来评估其理解能力，并使用多语言自我一致性作为检验模型理解力的标尺。作者以 ChatGPT 为例，通过在三种不同语言中评估两个不同任务的多语言一致性，发现其多语言一致性仍然不足，而其任务和世界理解力很大程度上取决于所使用的语言。该方法可以不需要任何其他语言的静态评估集，轻松、廉价地推广到不同的语言和任务中，成为未来基准评估的重要组成部分。

May, 2023

超越显而易见：基于生活景象的语言模型推理能力评估 (LSR-Benchmark)

本文介绍了 Life Scapes Reasoning Benchmark (LSR-Benchmark) 数据集，它是一个针对真实情境推理的新颖数据集，旨在弥补人工神经网络在日常背景下推理能力的差距，并测试了利用 gpt3.5-turbo 和 instruction fine-tuned llama 模型的推理性能。实验结果表明人类在理解日常生活方面仍然优于这些模型，这表明机器学习模型在理解日常人类生活方面仍然面临着挑战。

Jul, 2023

评估计算机常识的理论基础基准

本文提出了一个名为 TG-CSR 的具有理论基础的通识常识推理基准，该基准旨在评估通识常识的各种方面，并基于少量的训练和验证示例进行学习。通过初步的测试结果表明，该基准对于设计用于推理性 CSR 问题答案的先进语言表示模型来说是具有挑战性的。

Mar, 2022

GameBench：评估 LLM 代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT 和 RAP）能够提高分数。

Jun, 2024

两词测试：大型语言模型语义基准测试

本篇研究提出了一种新的基于双词短语的语义能力评估测试（TWT），研究评估了 GPT-4、GPT-3.5 和 Bard 等大规模语言模型的能力，显示它们在评估短语的意义和辨别无意义词组方面均表现不佳，需要继续进行测试和改进。

Jun, 2023

大型语言模型真正地进行了多好的接地？

大型语言模型的可靠性和控制性方面的关键问题是如何通过知识增强模型进行接地，该研究提出了一种严格的接地定义，并引入新的数据集和接地度量标准来评估该定义，通过实验对 13 种不同大小和训练方法的大型语言模型进行研究，以提供改进接地能力的见解。

Nov, 2023

LLMs 错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024