一种基于 LLM 的评估自动对抗叙事生成方法的排序方法

Jun, 2024

一种基于 LLM 的评估自动对抗叙事生成方法的排序方法

A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation

Irune Zubiaga, Aitor Soroa, Rodrigo Agerri

TL;DR使用大型语言模型作为评估者，提出了一种对生成的反话进行评估的新方法，通过在锦标赛格式中对生成的反话进行成对比较，建立了一个模型排名流程，并与人类偏好达到了 0.88 的相关性。此外，通过细致的评估和性能分析，发现以聊天为导向的零 - shot 生成模型在此任务中是最佳选择，前提是它们不因安全问题而拒绝生成答案。

Abstract

The proliferation of misinformation and harmful narratives in online discourse has underscored the critical need for effective counter narrative (CN) generation techniques. However, existing automatic evaluation methods

counter narrative evaluation methods large language model zero-shot generators performance analysis

发现论文，激发创造

使用大型语言模型的多方面对抗叙述评估框架

通过新的评估框架，我们提出了一种新颖的方法，让 LLMs 为生成的对抗叙事候选者提供评分和反馈，从而弥补以往评估方法的局限性，并显示出作为多方面、无参考和可解释的对抗叙事评估者的潜力。

Feb, 2024

使用预训练语言模型生成反对仇恨言论的对比研究

本研究旨在使用预训练的语言模型对抗英语在线仇恨言论，我们发现自回归模型与随机解码结合是最有前途的；同时研究发现成功的反目标试验关键不在于整体相似性，而是训练数据中的特定子集与测试目标的共性。最后，我们提出了一种管道技术，将自动生成的反叙事加以自动后期编辑以提高其质量。

Apr, 2022

利用 LLMs 进行对话质量测量

该论文探讨了使用大型语言模型（LLMs）进行自动对话质量评估的方法，并在公共和专有数据集上尝试了各种配置。结果表明，更大的模型产生了更准确的对话标签；算法选择背景上下文示例优于随机选择；在输出最终标签之前，使用 “思维链”（CoT）推理和标签提取过程进行合理化，可以提高性能；精细调整的 LLMs 优于开箱即用的模型。研究结果表明，合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。

Jun, 2024

使用 LLMs 的 Pairwise 比较进行零样本自然语言生成评估

通过用自然语言生成技术输出的对比评估方法来检验大型自然语言模型的表现，使得在不依靠特定域和属性情况下进行评估成为可能。

Jul, 2023

基于零样本下的零模型向导的文本反事实生成

通过全面的自然语言处理（NLP）下游任务中的实验证明，最近大型语言模型（LLMs）作为零 - shot 反事实生成器在评估和解释黑盒 NLP 模型方面具有高效性。

May, 2024

大规模语言模型在自动评估中的深入研究

使用大型语言模型（LLMs）评估文本质量近来变得流行。本文分析了 LLM 评估（Chiang 和 Lee，2023）和 G-Eval（Liu et al.，2023），讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链（CoT）并不总是使 G-Eval 与人类评分更加一致。我们还表明，强制 LLM 仅输出数字评分，如 G-Eval 中所示，是不理想的。最后，我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性，并在两个元评估数据集上推动了最新技术的相关性。

Oct, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

基于 LLM 的自然语言生成评估：现状与挑战

自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法，探讨了它们的优势和劣势，讨论了人机合作的 NLG 评估，并提出了该领域的几个开放问题和未来的研究方向。

Feb, 2024

DetectLLM：利用对数秩信息进行零样本检测机器生成的文本

本文介绍了两种利用对数排名信息进行无样本检测的新型机器生成文本检测方法，分别为快速高效的 DetectLLM-LRR 和更加精确但需要扰动的 DetectLLM-NPR，实验证明两种方法分别优于现有技术 3.9 和 1.75 AUROC 点的绝对值。

May, 2023

探索文本生成的屏蔽语言建模和因果语言建模

这篇论文比较了掩码语言模型和因果语言模型在文本生成任务上的表现，发现掩码语言模型在生成文本时具有更好的质量和连贯性，并且对下游任务的性能没有明显影响，从而显示了掩码语言模型在文本生成方面具有巨大的潜力并指导了未来研究的方向。

May, 2024