Aug, 2023
LongBench: 一个用于长篇上下文理解的双语多任务基准
LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding
TL;DR通过引入LongBench,对8个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。