SIGIRMay, 2024

检索评估的合成测试集

TL;DR使用大型语言模型构建综合人工合成测试集来评估信息检索系统的可行性及存在的潜在偏见风险。