人工评估指南中对漏洞的定义和检测：实现可靠的自然语言生成评估的初步研究

Jun, 2024

人工评估指南中对漏洞的定义和检测：实现可靠的自然语言生成评估的初步研究

Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evaluation

PDF

Jie Ruan, Wenqing Wang, Xiaojun Wan

TL;DR通过收集从现有论文中提取的指南注释以及由大型语言模型（LLMs）生成的指南注释，我们提出了第一个人工评估指南数据集，并引入了八种漏洞的分类和组成评估指南的原则。此外，我们还探索了使用 LLMs 检测指南漏洞的方法，并提供了一套增强人工评估可靠性的建议。

Abstract

human evaluation serves as the gold standard for assessing the quality of Natural Language Generation (NLG) systems. Nevertheless, the evaluation guideline, as a pivotal element ensuring reliable and reproducible human assessment, has received limited attention.Our investigation reveal

human evaluation evaluation guidelines nlg systems vulnerabilities reliability

发现论文，激发创造

关于自然语言生成评估中自动度量标准进行更好验证研究

本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证，提出了验证研究的最佳实践，并在 WMT'17 度量共享任务中进行了分析，同时也突出了未来的发展方向。

Jul, 2019

人还是机器？自动化自然语言生成文本人类相似性评估

本文提出了一种基于大型预训练语言模型和概率分布的区分程序来自动评估自然语言生成方法产生的文本样本的人类相似度分数，与人类判断的自动评估进行了验证。

Jun, 2020

分级评估框架：人工评估的最佳实践

通过对现有文献进行广泛分析，我们发现在自然语言处理的人工评估方法中存在一些缺陷，这促使我们开发了一种层次化评估框架，该框架具有更全面地表示自然语言处理系统性能的显著优点，并应用于评估机器阅读理解系统及其与人工智能共生模型中的输入和输出的质量之间的关联。

Oct, 2023

基于 LLM 的自然语言生成评估：现状与挑战

自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法，探讨了它们的优势和劣势，讨论了人机合作的 NLG 评估，并提出了该领域的几个开放问题和未来的研究方向。

Feb, 2024

人类评估中的真实性差距

本文提出 NLG 评估标准协议中存在的假设并分析了其局限性，同时提出了一个更理论严谨的改进方案，并针对开放式任务提出了新的 SPA 人类评估协议。使用 SPA 进行人类评估时，可以使用系统级概率评估恢复 GPT-3 模型大小排序且差异具有统计学意义。

May, 2022

用于评估 NLG 评估指标的扰动检查清单

通过研究发现，基于单一标准（如总体质量）的自动评估指标与人工评分不能很好地关联，因此我们提出了 CheckLists 以更好地设计和评估自动评估指标，并通过模板针对特定标准对输出进行干扰，从而暴露指标的局限性，并有利于更好地设计、分析和评估这些指标。

Sep, 2021

文本生成的评估：一项调查

该文章调查了近年来开发的自然语言生成（NLG）系统的评估方法。将 NLG 评估方法分为三类，讨论了每种类别取得的进展和仍然面临的挑战，重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特定的 NLG 评估示例，并提出了未来的研究方向。

Jun, 2020

拆解自然语言生成评估：评估实践、假设及其影响

通过对 18 位自然语言生成技术从业者的形成性半结构化访谈和 61 位从业者的调查研究，我们展示了影响自然语言生成技术评估的目标、社区实践、假设和约束，以及它们所体现的伦理考虑。

May, 2022

修复裂开的基础：生成文本评估实践中的障碍调查

本文对自然语言生成中的模型评估进行了综述，分类，以及讨论该领域内研究人员针对这些问题所做的工作，提出了一个长期的 NLG 评估愿景，并建议研究人员采取具体措施来改善他们的评估过程。最终，从 66 篇近期 NLP 会议的 NLG 论文中分析了研究人员在遵循这些建议方面的情况，并确定了需要更彻底改变现状的领域。

Feb, 2022

医疗领域生成型大型语言模型人工评估的文献综述与框架

该研究回顾了健康医疗领域中基于大型语言模型的人工智能生成文本的人工评估方法，并使用 QUEST 框架提出了一个标准化和统一的人工评估方法，旨在提高可靠性和适用性。

May, 2024