DetectBench: 大型语言模型能否检测并拼凑隐含证据？

Jun, 2024

DetectBench: 大型语言模型能否检测并拼凑隐含证据？

DetectBench: Can Large Language Model Detect and Piece Together Implicit Evidence?

Zhouhong Gu, Lin Zhang, Xiaoxuan Zhu, Jiangjie Chen, Wenhao Huang...

TL;DR本文提出了一个称为DetectBench的基准测试，旨在验证检测和组合长篇背景中的隐含证据的能力，并通过提出的Detective Reasoning Prompt和Finetune方法增强LLMs在证据检测中的性能。实验证明，现有LLMs在长篇背景中检测证据的能力远远不及人类，但Detective Reasoning Prompt有效地增强了强大LLMs的证据检测能力，而Finetuning方法显著提高了较弱LLMs的性能。此外，当提高LLMs在证据检测中的能力时，它们的最终推理性能也相应增强。

Abstract

Detecting evidence within the context is a key step in the process of reasoning task. Evaluating and enhancing the capabilities of LLMs in evidence detection will strengthen context-based reasoning performance. T

发现论文，激发创造

使用大型语言模型进行可解释的逻辑推理的Selection-Inference方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

NLPBench：评估大型语言模型在解决NLP问题上的能力

通过独特的基准数据集NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对LLMs 性能有时造成损害，尤其是较小的模型LLAMA-2（13亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准LawBench，并经过广泛测试发现GPT-4是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

大型语言模型的推理能力：对抽象与推理语料库的深度分析

利用Abstract and Reasoning Corpus数据集的新方法，我们评估了大型语言模型的推理和上下文理解能力，结果表明虽然大型语言模型具有薄弱的推理能力，但在逻辑连贯性、组合性和生产力方面仍然落后于人类，我们的实验突显了LLM的推理能力，并提出了实现人类级别推理的发展路径。

Mar, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

导航迷宫：评估和提高LLMs处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为SearchBench的新基准测试，其中包含11种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析LLM生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的LLM也无法完全以文本方式解决这些问题，例如GPT4只解决了1.4%的问题。SearchBench的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导LLM生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如GPT4的表现提升到了11.7%。在这项工作中，我们展示了利用A*算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将GPT-4的表现提升到了57%以上。

Jun, 2024

NeedleBench: LLM能否在一百万上下文窗口中进行检索和推理？

评估大型语言模型在长文本情境下的能力，提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench，并通过 Ancestral Trace Challenge(ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明，当前的大型语言模型在实际长文本应用中仍有很大的改进空间。

Jul, 2024

CLR-Fact：评估大语言模型在事实知识上的复杂逻辑推理能力

本研究解决了大语言模型在复杂逻辑推理中的能力不足。通过自动生成复杂推理问题的新基准，我们发现通过显式的思维链提示可以显著提高模型的推理性能。此外，我们揭示了模型在集合并运算方面表现良好，但在集合交集运算方面面临重大挑战，这对于逻辑推理至关重要。

Jul, 2024

侦探QA：评估侦探小说中的长文脉络推理

本研究解决了目前缺乏有效评估大语言模型（LLMs）处理长文脉络能力的基准问题。通过推出DetectiveQA，一个以侦探小说为数据源的叙述推理基准，我们引入了新的评估维度，强调从长文脉络中提取证据并进行推理的能力。结果表明，现有的长文脉络LLMs在处理真实的长文脉络依赖问题上仍需大幅提升。

Sep, 2024

貌似合理的干扰项在多跳推理中的作用：大型语言模型是否是细致的读者？

本研究针对当前大型语言模型在多跳推理能力方面的不足，特别是它们在利用简化提示绕过推理要求的问题。研究发现，大型语言模型确实可能会通过更加微妙的方式规避这些推理要求，并提出了一种新的多跳推理基准，生成貌似合理但最终错误的推理链，显著影响模型的表现，F1分数最高下降45%。

Sep, 2024