将人类和统计评估统一为一体:自然语言生成
本文提出了一种通过建立多样性度量指标及其多样性参数之间关系的系统来评估自然语言生成(NLG)系统多样性的方法,并通过对人类和自动度量,解码参数调整等方面的实验展示了这个框架的实用性。
Apr, 2020
本文探讨在多任务学习设置中,使用主观评估作为语言生成模型训练的一部分,并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示,多任务学习的模型生成的话语在主观上评分最高,且在推动对话发展、无冒犯性等方面得分最高。因此,将来可以研究将主观人类评估纳入语言生成模型训练中,从而在开发过程中更好地与人类用户进行交互。
Apr, 2021
本文章提出一种同时评估生成文本方法质量和多样性的度量标准,通过逼近学习生成模型和真实数据分布的距离,并介绍了基于 n-gram 和 BERT 特征的度量方法,并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后,使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估,确定提出度量标准的优势。
Apr, 2019
提出了一种基于多维度布尔问题回答任务的统一评价器 UniEval,通过指导模型回答不同问题的方式,从多维度评估自然语言生成的质量,并且通过中间学习阶段,UniEval 可以整合来自多个相关任务的外部知识,以实现更全面的评估。实验表明,UniEval 比现有的评估指标与人类判断的相关性更高,可在多个任务中实现强的零次学习能力。
Oct, 2022
我们提出了一个替代方法来量化语言模型学习自然语言的程度:我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向,提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向,但与经验性趋势相比,更接近所提出的理论分布(当存在时)。此外,对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子,使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系;LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。
May, 2021
本文研究自然语言生成的评估方法,并通过自动化评估和人工评估的比较,发现词汇重叠是自然语言生成的较好评估指标,而人工评估与自动化评估在排名上存在较大差异,因此呼吁重新考虑自然语言生成的评估目标。
Jan, 2019
本文提出了一种基于大型预训练语言模型和概率分布的区分程序来自动评估自然语言生成方法产生的文本样本的人类相似度分数,与人类判断的自动评估进行了验证。
Jun, 2020
本文提出了一种基于语义的机器翻译评估方法 HUME,利用 UCCA 语义表示计算句子的 semantics-based 值,而不需要对机器翻译输出进行语义标注。实验结果表明,HUME 在多个语言对上都有广泛的适用性,并与人类评估表现出良好的一致性。
Jun, 2016
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022