Nov, 2023

建立非专业化 LLM 用户的微调、增强检索生成和软提示的性能基准

TL;DR通过细调、检索增强生成(RAG)和软提示等方法提高大型语言模型(LLMs)的性能的研究一般侧重于使用高度技术性或高成本的技术,使许多新发现的方法对非技术用户相对不可访问。在本文中,我们测试了未修改版本的 GPT 3.5,经过细调的版本,以及相同的未修改模型在访问矢量化的 RAG 数据库时,单独或与基本的非算法软提示相结合。每种情况下,我们测试了模型回答一组 100 个与 2021 年 9 月之后(GPT 3.5 的训练数据集结束的时间点)相关的事件问题的能力。我们发现,如果使用商业平台并应用默认设置以建立基准输出集,经过细调的模型优于 GPT 3.5 Turbo,而 RAG 方法优于两者。应用软提示显著提高了每种方法的性能。