以 GPT 为基准的推荐解释文本

Sep, 2023

GPT as a Baseline for Recommendation Explanation Texts

Joyce Zhou, Thorsten Joachims

TL;DR我们研究了现代模型生成的电影推荐的文本解释如何帮助用户，以及探讨用户对这些文本解释的不同组成部分的喜好和厌恶，特别是与现有的人类电影评论相比。我们发现，参与者对电影之间的排名以及对从未看过的电影评论的个人质量评分没有显著差异。然而，当评论是关于他们之前看过的电影时，参与者标记为更好的评论。此外，我们还探讨了参与者认为每个质量重要的电影评论文本的具体方面。总的来说，我们证明了现代 LLMs 是有希望作为推荐解释的来源，我们打算在未来进一步探索可个性化的文本解释。

Abstract

In this work, we establish a baseline potential for how modern model-generated text explanations of movie recommendations may help users, and explore what different components of these →

text explanations movie recommendations human movie reviews quality scores llms

发现论文，激发创造

基于大规模语言模型的不确定性感知可解释推荐

为了提高用户满意度和建立信任，推荐系统内提供解释尤为重要，特别是对为用户定制的推荐物品进行解释。在这个研究领域中，主要方法是生成基于文本的解释，主要侧重于应用大型语言模型（LLMs）。然而，由于时间限制和计算资源限制，对于可解释性推荐来说，细化 LLMs 的工作并不可行。作为替代方案，当前的方法是训练提示而不是 LLMs。在这项研究中，我们开发了一个模型，利用用户和项目输入的 ID 向量作为 GPT-2 的提示。我们在多任务学习框架内使用联合训练机制来优化推荐任务和解释任务。这种策略能更有效地探索用户的兴趣，提高推荐的效果和用户满意度。通过实验，在 Yelp、TripAdvisor 和 Amazon 数据集上，我们的方法在解释能力评估指标上分别达到 1.59 DIV、0.57 USR 和 0.41 FCR，相比于四种现有技术，表现出卓越性能。此外，我们发现所提出的模型能够确保在这三个公共数据集上文本质量的稳定。

Jan, 2024

大型语言模型作为推荐解释的评估器

使用 LLMs 作为评估者能够提供准确、可重复和经济高效的解决方案，用于评估推荐解释文本的质量。

Jun, 2024

利用大型语言模型引发信息丰富的文本评价

利用大型语言模型，本研究引入了两种机制，即生成式同伴预测机制（GPPM）和生成式简介同伴预测机制（GSPPM），以扩大同伴预测机制的应用范围至基于文本的报告，并理论上证明当语言模型预测足够准确时，该机制能够激励高质量的反馈。在实证研究中使用了 Yelp 评论数据集和 ICLR OpenReview 数据集，结果表明在 ICLR 数据集上，该机制能够根据期望得分区分人工编写的评论、GPT-4 生成的评论和 GPT-3.5 生成的评论，并且 GSPPM 比 GPPM 更有效地惩罚产生自语言模型的评论。

May, 2024

BookGPT：基于语言模型的图书推荐通用框架

本文介绍了一种基于 ChatGPT 的 BookGPT 书籍推荐系统，利用大型语言模型技术实现了书籍的评分、用户评分和书籍概述等三项典型任务。同时，本文还讨论了 BookGPT 在书籍推荐场景中的优缺点，并分析了后续 LLM 在这些场景中的机遇和改进方向。

May, 2023

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

ChatGPT 与我的教授相比，是更好的解释者吗？：评估 LLMs 在对话中的解释能力与人类基准

这篇研究论文探讨了解释的重要性和基于对话的方法，使用了大型语言模型（LLMs）来增强专家解释者在对话环境中的能力，并通过评估不同策略的效果来了解 LLMs 在生成解释性回应方面的能力。

Jun, 2024

通过批评与解释交互

本文提出了一种新颖的使用方面标记的技术，可以从评论文本中生成个性化的推荐解释，允许用户通过批判文本解释来修改推荐条件，在两个真实数据集上的实验证明，该方法可以在单步和多步批判中适应用户的偏好，是一种新型的无监督批判方法。

May, 2020

评估 GPT-3 生成的针对仇恨性内容审核的说明

本研究通过对使用大型语言模型对仇恨言论生成解释的分析框架的提出以及对 2400 位受访者的调查，发现生成的解释在语言流畅性、信息量、说服力和逻辑准确性方面都获得了高评价，但不同提示策略会影响解释的说服力，可能会导致对内容是否仇恨的错误判断。因此，在内容审核中应谨慎使用大型语言模型 - generated 的解释。

May, 2023

大型语言模型能否自我解释？LLM 生成自解释的研究

ChatGPT 的自解释性能与传统方法相媲美，在成本较低的情况下，且具有许多有趣的特性，促使我们重新思考当前在 ChatGPT（类似的 LLM）时代的模型可解释性实践。

Oct, 2023

Few-shot 提示在文本推理中解释的不可靠性

本文研究了将 GPT-3 等大型语言模型与说明相结合是否能够提高上下文学习效果，发现对于涉及文本推理的自然语言推理和问答任务，使用不同样式的说明对 OPT、GPT-3（davinci）和 InstructGPT（text-davinci-001）等四个 LLM 的性能仅会带来小至中等的准确性提高，而 text-davinci-002 能够带来更实质性的提高，并且 LLM 产生的说明可能不支持、甚至与模型预测不一致，但这些说明仍有助于验证模型的预测，在此观察基础上，文章通过训练校准器使用自动提取的评分评估说明的可靠性，从而在全部数据集上实现后处理性能的提高。

May, 2022