大型语言模型作为推荐解释的评估器
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架,并创建了一个用于评估 LLM-based 评估器的精心策划的数据集,该数据集覆盖 10 种语言,包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能,结果表明,基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好,而 GPT-3.5-Turbo 的表现不佳。此外,我们对 LLM-based 评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。
Apr, 2024
通过对大型语言模型的评估,本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差,并需要使用本地语言的数据集进行校准。
Sep, 2023
本文旨在探讨使用 LLMS(例如 “gpt-3.5-turbo”)作为自动评估器来评估摘要的性能,并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能,并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。
May, 2023
通过使用大型语言模型 (LLMs),我们提出了简单而有效的两阶段解释性推荐框架 LLMXRec,旨在进一步提高解释质量。与大多数现有的基于 LLM 的推荐系统不同,LLMXRec 侧重于先前推荐模型与基于 LLM 的解释生成器之间的紧密协作。通过采用一些关键的微调技术,包括参数高效的指导微调和个性化提示技术,我们能够生成可控且流畅的解释,以实现解释推荐的目标。我们提供了三个不同的角度来评估解释的有效性,并在几个基准推荐模型和公开可用的数据集上进行了大量实验。实验证据不仅在有效性和效率方面取得了积极的结果,还揭示了一些以前未知的结果。为了方便在这个领域的进一步探索,我们开源了完整的代码和详细的原始结果。
Dec, 2023
最近几年,推荐系统 (Recommender Systems) 在自然语言处理 (Natural Language Processing) 领域迎来了巨大的变革,得益于大型语言模型 (Large Language Models) 的出现。这些模型,如 OpenAI 的 GPT-3.5/4 和 Meta 的 Llama,在理解和生成类似人类的文本方面展示了前所未有的能力,从而在个性化和可解释性推荐领域引发了范式转变,因为大型语言模型提供了处理大量文本数据以增强用户体验的多功能工具集。为了全面了解现有的基于大型语言模型的推荐系统,本综述旨在分析推荐系统如何从大型语言模型的方法中受益。此外,我们还描述了个性化解释生成 (Personalized Explanation Generating) 任务中的主要挑战,包括冷启动问题、公平性和偏见问题。
Nov, 2023
这篇研究通过引入一个具有挑战性的元评估基准 LMMBar,调查了大型语言模型 (LLMs) 在评估指导遵循生成文本方面的效力,发现不同评估器对 LMMBar 的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小 LLM 和人类评估器之间的差距。通过 LLMBar 希望提供对 LLM 评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。
Oct, 2023
本研究通过使用 SummEval 数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模型评估器以减轻这些限制的方法,通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。
May, 2024
为了提高用户满意度和建立信任,推荐系统内提供解释尤为重要,特别是对为用户定制的推荐物品进行解释。在这个研究领域中,主要方法是生成基于文本的解释,主要侧重于应用大型语言模型(LLMs)。然而,由于时间限制和计算资源限制,对于可解释性推荐来说,细化 LLMs 的工作并不可行。作为替代方案,当前的方法是训练提示而不是 LLMs。在这项研究中,我们开发了一个模型,利用用户和项目输入的 ID 向量作为 GPT-2 的提示。我们在多任务学习框架内使用联合训练机制来优化推荐任务和解释任务。这种策略能更有效地探索用户的兴趣,提高推荐的效果和用户满意度。通过实验,在 Yelp、TripAdvisor 和 Amazon 数据集上,我们的方法在解释能力评估指标上分别达到 1.59 DIV、0.57 USR 和 0.41 FCR,相比于四种现有技术,表现出卓越性能。此外,我们发现所提出的模型能够确保在这三个公共数据集上文本质量的稳定。
Jan, 2024
通过同行评审机制,我们提出了一种能够自动评估大型语言模型的新框架,用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验,结果表明使用单一语言模型评估存在偏见,并证明了我们的同行评审机制的有效性。
Jan, 2024