Aug, 2023

使用大型语言模型评估聊天的三种方法

TL;DR本文通过三种不同的方法,基于大型语言模型(LLMs)对于 ChatGPT 响应的逐轮质量进行预测,并使用动态少量样本来改善基准,并分析了其他两种方法的性能并提出未来研究的改进。研究表明,Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距,但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。