Jun, 2024

DetectBench: 大型语言模型能否检测并拼凑隐含证据?

TL;DR本文提出了一个称为DetectBench的基准测试,旨在验证检测和组合长篇背景中的隐含证据的能力,并通过提出的Detective Reasoning Prompt和Finetune方法增强LLMs在证据检测中的性能。实验证明,现有LLMs在长篇背景中检测证据的能力远远不及人类,但Detective Reasoning Prompt有效地增强了强大LLMs的证据检测能力,而Finetuning方法显著提高了较弱LLMs的性能。此外,当提高LLMs在证据检测中的能力时,它们的最终推理性能也相应增强。