利用大型语言模型引发信息丰富的文本评价

May, 2024

利用大型语言模型引发信息丰富的文本评价

Eliciting Informative Text Evaluations with Large Language Models

Yuxuan Lu, Shengwei Xu, Yichi Zhang, Yuqing Kong, Grant Schoenebeck

TL;DR利用大型语言模型，本研究引入了两种机制，即生成式同伴预测机制（GPPM）和生成式简介同伴预测机制（GSPPM），以扩大同伴预测机制的应用范围至基于文本的报告，并理论上证明当语言模型预测足够准确时，该机制能够激励高质量的反馈。在实证研究中使用了 Yelp 评论数据集和 ICLR OpenReview 数据集，结果表明在 ICLR 数据集上，该机制能够根据期望得分区分人工编写的评论、GPT-4 生成的评论和 GPT-3.5 生成的评论，并且 GSPPM 比 GPPM 更有效地惩罚产生自语言模型的评论。

Abstract

peer prediction mechanisms motivate high-quality feedback with provable guarantees. However, current methods only apply to rather simple reports, like multiple-choice or scalar numbers. We aim to broaden these techniques to the larger domain of →

peer prediction mechanisms text-based reports large language models generative peer prediction mechanism generative synopsis peer prediction mechanism

发现论文，激发创造

大型语言模型能否给研究论文提供有用反馈？一个大规模实证分析

使用 GPT-4 模型创建了一个自动化平台，通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。在两项大规模研究中，我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较，并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。总体而言，超过半数的用户（57.4%）认为 GPT-4 生成的反馈有所帮助，82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。

Oct, 2023

PRE: 基于同行评审的大型语言模型评估器

通过同行评审机制，我们提出了一种能够自动评估大型语言模型的新框架，用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验，结果表明使用单一语言模型评估存在偏见，并证明了我们的同行评审机制的有效性。

Jan, 2024

ReviewerGPT？使用大型语言模型进行论文审阅的初步研究

使用 GPT-4 大型语言模型来辅助论文审核的研究发现其可以有效识别大部分错误，然而在挑选更好的论文时还存在一定误差。

Jun, 2023

ElicitationGPT：基于语言模型的文本引导机制

使用领域知识自由的查询机制，该论文利用大型语言模型（具体来说是 ChatGPT）对采集到的文本与真实文本进行评分，并通过实证评估其与人类偏好的一致性。该实证评估基于同行评阅数据集中的同行评阅，并与手动评分进行比较。

Jun, 2024

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

大型语言模型作为推荐解释的评估器

使用 LLMs 作为评估者能够提供准确、可重复和经济高效的解决方案，用于评估推荐解释文本的质量。

Jun, 2024

以 GPT 为基准的推荐解释文本

我们研究了现代模型生成的电影推荐的文本解释如何帮助用户，以及探讨用户对这些文本解释的不同组成部分的喜好和厌恶，特别是与现有的人类电影评论相比。我们发现，参与者对电影之间的排名以及对从未看过的电影评论的个人质量评分没有显著差异。然而，当评论是关于他们之前看过的电影时，参与者标记为更好的评论。此外，我们还探讨了参与者认为每个质量重要的电影评论文本的具体方面。总的来说，我们证明了现代 LLMs 是有希望作为推荐解释的来源，我们打算在未来进一步探索可个性化的文本解释。

Sep, 2023

CritiqueLLM: 扩展 LLM-as-Critic 以有效且可解释地评估大型语言模型生成

自然语言处理社区开始让大规模语言模型（如 GPT-4）扮演批评家以评估生成文本质量，大部分仅在特定数据集上训练特定规模的批判生成模型，我们认为缺乏对于基于语言模型评估模型的关键因素（如可扩展性特性）的全面调查，因此目前是否有潜力在实际场景中取代 GPT-4 的评估仍然没有结论；在本文中，我们提出了一种名为 CritiqueLLM 的新型批判生成模型，采用基于对话的提示方法用于高质量的参考 / 无参考评估数据，实验结果表明，我们的模型在评估性能上可以与 GPT-4 相媲美，尤其在系统级相关性上，甚至在具有挑战性的无参考环境中，在 8 个任务中有 3 个胜过 GPT-4；我们进行详细分析以展示我们模型在生成批评质量方面的可扩展性特性，同时证明我们生成的批评可以作为可扩展反馈，直接提高 LLM 的生成质量。

Nov, 2023

通过强化学习提高自动生成反馈的有效性

基于大语言模型的自动生成反馈在智能辅导系统和在线学习平台中具有潜力来提高许多学生的学习效果，本文针对自动生成和评估反馈的问题，提出了数学反馈评估标准和反馈生成框架，通过强化学习优化反馈的正确性和一致性，并通过案例研究定性分析了生成和评估系统。

Mar, 2024

生成式大型语言模型是全能文本分析引擎：文本对文本学习是您所需的全部

通过基于生成型大型语言模型（LLM）的通用文本到文本学习架构和提示调优，解决主要的临床自然语言处理（NLP）任务，并提供了最新的性能。

Dec, 2023