Jun, 2024

适用于对话的不同技术方法评估:微调还是 RAG?

TL;DR研究了大型语言模型(LLMs)在人机对话中的回应生成任务中的限制及不同对话类型下的 LLM 适应技术的评估方法,发现没有普遍适用的最佳适应技术,包括人工评估以避免自动测量引起的不准确预期和结果。