Feb, 2024

基准自演进:一种用于动态 LLM 评估的多智能体框架

TL;DR该研究提出了一个基准的自我演进框架,动态评估迅速发展的大型语言模型(LLMs)的能力和限制,实施基于多智能体系统的重构操作来构建演进实例,对 LLMs 进行更可扩展、稳健和细粒度的评估,并发现它们在多个任务上的性能普遍下降。