适用于对话的不同技术方法评估:微调还是 RAG?
通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型,利用金融数据集和检索增强生成技术 (RAG),证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。
Jan, 2024
比较 fine-tuning 和 retrieval-augmented generation (RAG) 两种方法,发现 RAG 在不同主题的知识密集型任务中始终优于 fine-tuning,并且 LLMs 在 fine-tuning 中难以学习新的事实信息,通过在训练过程中暴露它们于相同事实的多个变体可以缓解这个问题。
Dec, 2023
本文研究了领域特定的模型微调和推理机制对由大型语言模型(LLM)和检索增强生成(RAG)驱动的问答系统的性能的影响。通过使用 FinanceBench SEC 财务报告数据集,我们观察到,对于 RAG,将微调的嵌入模型与微调的 LLM 结合使用可以获得比通用模型更高的准确性,其中微调的嵌入模型所带来的收益相对更大。此外,在 RAG 之上使用推理迭代可以进一步提高性能,使问答系统更接近人类专家水平。我们讨论了这些发现的影响,提出了一个结构化的技术设计空间,涵盖了问答 AI 的主要技术组成部分,并为这些组成部分提供了高影响的技术选择建议。我们计划在本工作的基础上为 AI 团队提供具体指南,并进一步研究 RAG 中领域特定增强以及先进规划和推理等自主 AI 能力的影响。
Apr, 2024
该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标签提取过程进行合理化,可以提高性能;精细调整的 LLMs 优于开箱即用的模型。研究结果表明,合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。
Jun, 2024
在本文中,我们提出了一种用于 fine-tuning 和 RAG 的流程,并介绍了它们在多种流行的 LLMs 中的权衡。我们对农业数据集进行了深入研究,结果显示我们的数据集生成流程在捕捉特定地理知识方面的有效性以及 RAG 和 fine-tuning 的定量和定性优势。整体而言,结果表明通过使用 LLMs 构建的系统可以适应和整合特定行业关键维度上的知识,为其他工业领域进一步应用 LLMs 铺平了道路。
Jan, 2024
使用 Small and Large Integrated for Dialogue Evaluation(SLIDE)框架,结合小型专门模型(SLM)和大型语言模型(LLMs)来解决开放领域对话系统中的一对多问题和领域特定场景下的性能不佳问题。该方法通过对比学习、语义敏感度度量和结合 SLM 和 LLMs 的评估结果等技术,实现了分类和评估任务的最新性能,并且 SLIDE 评估器与人工判断更好地相关。
May, 2024
教育工作者评估开放式书面考试答案是一项需要大量精力、一致性和准确性的重要任务。本研究探索了大型语言模型在评估大学生对参考资料提出的开放式问题的答案时的效果,发现 LLMs 的一致性和评分结果存在显著差异。进一步的比较研究对于确定使用 LLMs 进行教育评估的准确性和成本效益至关重要。
May, 2024
通过检索增强生成(RAG)和精调(FT)方法来定制大型语言模型(LLM),以应对低频实体的问答任务,结果表明,FT 显著提升性能,尤其在最受欢迎和最不受欢迎的实体组中,而 RAG 优于其他方法。
Mar, 2024