Jul, 2024

EventChat: 中小企业环境下基于大型语言模型的对话式推荐系统的实现与用户中心评估

TL;DR大型语言模型(LLMs)在会话推荐系统(CRS)的战略潜力方面取得了巨大进展,但迄今为止,研究主要集中在实施LLM驱动的CRS的技术框架上,而非最终用户评估或对企业的战略影响,特别是来自构成全球经济基础的中小企业(SME)的视角。在本文中,我们详细介绍了在SME环境中设计的LLM驱动的CRS的设计,并通过客观系统指标和主观用户评估在实地环境中评估了其性能。与此同时,我们还介绍了一个用于评估LLM驱动的CRS的简化版ResQue模型,以使其能够在快速发展的领域中得到复制。我们的结果从用户体验角度显示出良好的系统性能(85.5%的推荐准确性),但也凸显出挑战企业可行性的延迟,成本和质量问题。值得注意的是,每次互动的中位成本为0.04美元,延迟为5.7秒,成本效益和响应时间成为实现更加用户友好和经济可行的LLM驱动CRS在SME环境中至关重要的领域。这些成本的一个主要驱动因素是将先进的LLM作为在检索增强生成(RAG)技术中的排序器使用。我们的结果还表明,仅依赖于Prompt-based learning等方法作为底层LLM,使得在生产环境中难以实现令人满意的质量。我们概述了部署LLM驱动CRS的SME面临的战略考虑,特别考虑了当前技术环境中的权衡。