Aug, 2024

自动评估人机交互问答的IQA-EVAL

TL;DR本研究解决了传统评估大型语言模型(LLMs)在问答中的不足,尤其是未考虑人机交互动态特征的问题。我们提出了一个名为IQA-EVAL的自动评估框架,通过引入基于LLM的评估代理(LEA),模拟人类行为并自动评估互动,显著提高了与人类评估的相关性。我们的实验显示,该框架在复杂和模糊的问答任务中将评估成本减少至5000美元。