Oct, 2024

基于上下文的测试:大型语言模型的模型测试新范式

TL;DR本研究针对现有的模型测试方法仅依赖保留数据进行评估的限制,提出了基于上下文的测试(CAT)方法,该方法利用上下文信息指导模型失败的搜索。通过构建SMART测试系统,利用大型语言模型识别相关和可能的失败,实验证明CAT在识别失败方面的有效性,展现了其作为测试新范式的潜力。