Jun, 2024

ResearchArena:评估 LLMs 作为研究代理的信息收集和组织能力

TL;DR利用 ResearchArena 测量大型语言模型代理在进行学术调查的能力,将调查流程分为信息发现、信息选择和信息组织三个阶段,在离线环境中评估代理定位支持材料、对定位的论文进行排名和将其组织成层次知识思维导图的能力,根据初步评估发现大型语言模型方法与基于关键词检索技术相比表现不佳,未来研究具有重要发展机会。