Aug, 2024

通过多阶段采样对大型语言模型进行主动测试

TL;DR本研究针对大型语言模型(LLMs)在性能评估中的数据需求问题,提出了一种新颖的主动测试框架AcTracer。该框架通过多阶段池基主动选择策略,从内部和外部信息指导测试数据的采样,有效提高了性能评估的效率和准确性。实验结果显示,AcTracer在各类任务中表现优于现有方法,性能提升达38.83%。