将人类和统计评估统一为一体：自然语言生成

ACLApr, 2019

将人类和统计评估统一为一体：自然语言生成

Unifying Human and Statistical Evaluation for Natural Language Generation

Tatsunori B. Hashimoto, Hugh Zhang, Percy Liang

TL;DR本文提出了一个统一的框架来评估 “人或机器生成” 的句子的错误率，并结合人类和统计学的评估来评估自然语言生成系统的多样性和质量，带来了更准确和全面的结果。

Abstract

How can we measure whether a natural language generation system produces both high quality and diverse outputs? Human evaluation captures quality

natural language generation diversity quality huse evaluating

发现论文，激发创造

自然语言生成中多样性评估的评估

本文提出了一种通过建立多样性度量指标及其多样性参数之间关系的系统来评估自然语言生成（NLG）系统多样性的方法，并通过对人类和自动度量，解码参数调整等方面的实验展示了这个框架的实用性。

Apr, 2020

将主观众评估作为改进自然语言生成的附加客观标准的估计

本文探讨在多任务学习设置中，使用主观评估作为语言生成模型训练的一部分，并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示，多任务学习的模型生成的话语在主观上评分最高，且在推动对话发展、无冒犯性等方面得分最高。因此，将来可以研究将主观人类评估纳入语言生成模型训练中，从而在开发过程中更好地与人类用户进行交互。

Apr, 2021

在文本生成模型中联合测量多样性和质量

本文章提出一种同时评估生成文本方法质量和多样性的度量标准，通过逼近学习生成模型和真实数据分布的距离，并介绍了基于 n-gram 和 BERT 特征的度量方法，并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后，使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估，确定提出度量标准的优势。

Apr, 2019

面向文本生成的统一多维度评估器

提出了一种基于多维度布尔问题回答任务的统一评价器 UniEval，通过指导模型回答不同问题的方式，从多维度评估自然语言生成的质量，并且通过中间学习阶段，UniEval 可以整合来自多个相关任务的外部知识，以实现更全面的评估。实验表明，UniEval 比现有的评估指标与人类判断的相关性更高，可在多个任务中实现强的零次学习能力。

Oct, 2022

语言模型评估：超越困惑度

我们提出了一个替代方法来量化语言模型学习自然语言的程度：我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向，提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向，但与经验性趋势相比，更接近所提出的理论分布（当存在时）。此外，对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子，使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系；LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。

May, 2021

评判评判者：针对在线评论生成的神经语言模型的大规模评估研究

本文研究自然语言生成的评估方法，并通过自动化评估和人工评估的比较，发现词汇重叠是自然语言生成的较好评估指标，而人工评估与自动化评估在排名上存在较大差异，因此呼吁重新考虑自然语言生成的评估目标。

Jan, 2019

人还是机器？自动化自然语言生成文本人类相似性评估

本文提出了一种基于大型预训练语言模型和概率分布的区分程序来自动评估自然语言生成方法产生的文本样本的人类相似度分数，与人类判断的自动评估进行了验证。

Jun, 2020

自然语言生成指标在系统水平的统计优势

本文分析了自动测量指标和人类判断系统质量估计方面的优劣，指出在人类判断样本数少或对比系统之间质量差异小时自动测量指标能优于人类判断。

May, 2021

HUME: 基于人类 UCCA 评估机器翻译

本文提出了一种基于语义的机器翻译评估方法 HUME，利用 UCCA 语义表示计算句子的 semantics-based 值，而不需要对机器翻译输出进行语义标注。实验结果表明，HUME 在多个语言对上都有广泛的适用性，并与人类评估表现出良好的一致性。

Jun, 2016

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022