BriefGPT.xyz
Ask
alpha
关键词
babilong benchmark
搜索结果 - 2
BABILong: 长篇背景下的 LLMs 极限测试和筛选
在这项研究中,我们介绍了 BABILong 基准测试,用于评估大型语言模型在处理长上下文时的效率。评估结果表明,目前流行的语言模型仅有效地利用上下文的 10-20%,并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中,使用检索
→
PDF
22 days ago
寻找一千万根干草堆中的针:循环记忆找到了低语言模型所错过的
本研究论文通过引入 BABILong 基准来评估模型在提取和处理长文本中分布式事实的能力,发现传统方法只适用于长度为 10^4 的序列,而使用细调 GPT-2 与循环记忆增强可以处理长度为 10^7 元素的任务,这一成就大大提高了长序列处理
→
PDF
5 months ago
Prev
Next