Oct, 2024
重新审视基准和评估:基于代理的探索动态评估框架用于大型语言模型
Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic
Evaluation Framework for LLMs
TL;DR本研究解决了当前大型语言模型(LLMs)跨领域自动评估性能的挑战,指出了现有评估方法的局限性。通过引入Benchmark+和Assessment+的概念,本文提出了一种基于代理的动态评估框架TestAgent,利用检索增强生成和强化学习技术,能够支持更灵活、深入的交互过程。实验结果表明,TestAgent在多种场景下都表现出了良好的效果,推动了LLMs自动评估的研究进展。