Jun, 2024

DCA-Bench: 数据集整理代理的基准测试

TL;DR利用大型语言模型代理,提出了一个评估数据集筛选能力的基准测试,该基准测试使用真实世界的数据集问题,并通过自动化评估器与人工评估对齐可靠,以进一步探索和创新应用大型语言模型于现实世界的数据集处理。