Mar, 2024

NovelQA: 一个长距离小说问答基准

TL;DR使用英文小说构建的 NovelQA 评估长上下文具有深层文本理解能力的 LLMs 的表现,结果强调了 LLMs 在多次推理、注重细节的问题和超过 100,000 个标记的极长输入方面面临的挑战,强调了进一步改进 LLMs 以提高其长上下文理解和计算文学研究的必要性。