Mar, 2024

研究信息检索增强生成和微调技术在基于人工智能驱动的知识系统开发中的性能

TL;DR基于 ROUGE、BLEU、METEOR 分数和余弦相似度的衡量标准,我们对 GPT-J-6B、OPT-6.7B、LlaMA、LlaMA-2 这几种语言模型的 RAG 和 FN 技术的性能进行了比较和分析,结果表明 RAG 基于构造的模型较 FN 更有效。我们进一步指出 RAG 和 FN 的连接并不简单,因为将 FN 模型与 RAG 相连会导致性能下降。此外,我们提出了一种简单的基于 RAG 的架构,平均而言在 ROGUE 评分上比 FN 模型高出 16%,在 BLEU 评分上高出 15%,在余弦相似度上高出 53%。这显示了 RAG 相比 FN 在幻觉方面的显著优势,而 FN 模型的平均 8% 更好的 METEOR 分数则表明其与 RAG 相比具有更高的创造力。