Sep, 2024

侦探QA:评估侦探小说中的长文脉络推理

TL;DR本研究解决了目前缺乏有效评估大语言模型(LLMs)处理长文脉络能力的基准问题。通过推出DetectiveQA,一个以侦探小说为数据源的叙述推理基准,我们引入了新的评估维度,强调从长文脉络中提取证据并进行推理的能力。结果表明,现有的长文脉络LLMs在处理真实的长文脉络依赖问题上仍需大幅提升。