Mar, 2024

ELITR-Bench:面向长篇对话的语言模型评测

TL;DR我们的研究提出了一个新的长文本上下文大型语言模型测试基准,名为 ELITR-Bench,侧重于实际的会议助手场景。我们使用 271 个手工制作的问题和其真实答案来增强现有的 ELITR 语料库的转录文本,实验结果显示当前公开源代码和专有模型之间在 ELITR-Bench 上存在差距,尤其是在对话中顺序提问的情况下。我们还对基于 GPT-4 的评估方法进行了详细分析,包括来自众包研究的见解,发现 GPT-4 的评估得分与人工评判的相关性较高,但在区分超过三个得分水平时其能力可能受到限制。