Mar, 2025

DAFE:基于大型语言模型的动态仲裁自由问答评估

TL;DR本研究解决了自由形式生成的语言模型响应评估中的一个关键问题,即传统评估方法无法有效捕捉语义等价性。我们提出了动态仲裁框架(DAFE),通过使用多个大型语言模型作为评估者,以提升评估的准确性,并显著改善评估指标。该框架在一致性、可扩展性和资源效率方面表现出色,展示了其在评估自由形式输出中的潜在影响。