Jul, 2024

电信领域问答的RAG度量评估

TL;DR使用任何大型语言模型 (LLM),本研究以修改的 RAGAS 包提供开放领域 LLM 的评估指标,分析专家评估及其在电信领域中的困难,并研究检索的正确性对度量标准的影响以及域自适应的差异,最后讨论这些度量标准在电信问答任务中的适用性和挑战。