个性化故事评估学习

Oct, 2023

Learning Personalized Story Evaluation

Danqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen...

TL;DR通过建立个性化故事评估模型 PERSE，该研究拟解决大语言模型在开放式文本生成方面评估表现困难的问题，并通过两个新数据集 Per-MPST 和 Per-DOC 进行实验，研究结果表明该模型在故事评分和优先级预测方面均优于 GPT-4。

Abstract

While large language models (LLMs) have shown impressive results for more objective tasks such as QA and retrieval, it remains nontrivial to evaluate their performance on open-ended text generation for reasons in

large language models open-ended text generation personalization personalized story evaluation perse

发现论文，激发创造

基于大型语言模型的个性化文本生成的自动评估

个性化文本生成采用了一种专门的机制来提供与用户个人背景相关的内容，并且尽管这一领域的研究进展很快，但仍存在着评估方面的挑战。本研究提出了 AuPEL 作为一种新颖的评估方法，通过大型语言模型对个性化文本生成进行评估，用以满足人工评估的高成本和传统文本相似度度量方法的不足。实验证明，与现有的评估指标相比，AuPEL 不仅可以更准确地区分和排名模型的个性化能力，而且在此任务中表现出令人称赞的一致性和高效性。

Oct, 2023

大型语言模型中自我评估提高选择性生成

使用大型语言模型进行自我评估可以提高生成内容的准确性，并与生成内容的整体质量更好地相关。

Dec, 2023

StoryER：通过排序、评分和推理进行自动故事评估

提出了一种新的故事评估方法 StoryER，包括排序、评分和评论等三个子任务，此方法不仅考虑故事的词汇一致性，还结合了人类偏好进行评估，其基于的公开数据集与经过微调的 Longformer-Encoder-Decoder，通过在每个任务上产生优异的性能表现，展示了其与人类喜好的高相关性。

Oct, 2022

评估指标在 GPT-4 时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

PRE: 基于同行评审的大型语言模型评估器

通过同行评审机制，我们提出了一种能够自动评估大型语言模型的新框架，用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验，结果表明使用单一语言模型评估存在偏见，并证明了我们的同行评审机制的有效性。

Jan, 2024

教导 LLM 个性化 —— 受到写作教育启发的方法

个性化文本生成是一个新兴的研究领域，通过使用大型语言模型 (LLMs)，我们提出了一种通用的个性化文本生成方法。借鉴写作教育的实践，我们开发了一个多阶段和多任务的框架来教授 LLMs 进行个性化生成。我们的方法包括检索、排名、总结、综合和生成多个阶段，并引入了一个多任务设置来进一步提高模型的生成能力。我们在三个涵盖不同代表性领域的公开数据集上评估了我们的方法，结果显示相对于各种基线模型，我们取得了显著的改进。

Aug, 2023

使用 MTurk 评估开放式文本生成的风险

本文对目前 45 篇与开放式文本生成相关的论文进行了调查，并发现它们中绝大多数未报告有关 Amazon Mechanical Turk 任务的关键细节，从而影响了可重复性。本文还进行了故事评估实验，发现即使使用严格的资格筛选器，AMT 工作者（与教师不同）也无法区分模型生成的文本和人类生成的参考文本。研究表明，当 AMT 工人同时展示模型生成的输出和人类生成的参考文本时，工人的判断能力得到了提高，并为评估过程提供了深刻的洞察。

Sep, 2021

METAL：面向多语言元评估

我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架，并创建了一个用于评估 LLM-based 评估器的精心策划的数据集，该数据集覆盖 10 种语言，包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能，结果表明，基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好，而 GPT-3.5-Turbo 的表现不佳。此外，我们对 LLM-based 评估器提供的推理进行分析，发现它往往与人类评判所提供的推理不一致。

Apr, 2024

语言模型中的心理深度测量

通过 Psychological Depth Scale 框架，评估大型语言模型（LLMs）生成的创意故事的心理深度，该框架根植于文学理论，测量 LLMs 生成真实且叙述复杂的故事的能力，能够引发情感、共情和参与度，并验证其自动化与系统性。

Jun, 2024

针对对话推荐系统的合成数据集评估

本研究提出对生成模型产生的数据集进行多方面评估的框架，探讨了各种评估方法的优缺点

Dec, 2022