语言生成评估指标的奇异案例:一则警示故事
本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证,提出了验证研究的最佳实践,并在WMT'17度量共享任务中进行了分析,同时也突出了未来的发展方向。
Jul, 2019
该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展,说明了早期的启发式量化策略难以满足各种不同类型NLG任务的需求,因此需要发展更加准确的自动评估指标,并给出了该领域发展的建议和方向。
Aug, 2020
提出了一种新的比较模型,即Bidimensional Leaderboards,这种模型同时跟踪语言生成模型的进展和评价指标,通过人类评价,对评价指标进行排名和选择,以模型和评价指标为竞争方,最后得出一个集成评价指标。
Dec, 2021
本文探究了自然语言生成中,自动评价方法之一的Mauve metric在理论与实践中的缺陷,并提出了基于聚类的代替方案,通过编码句法和一致性特征来评估文本生成方法。
May, 2022
本文探讨了自然语言生成的有效评估指标,以及通过使用轻量级版本的Transformer和线性、二次逼近算法来实现评估指标的高效计算,研究发现,TinyBERT在语义相似性评估指标方面表现最佳,并且在平均推理时间上比原算法要快5倍,但WMD近似计算并没有带来效率提升,反而在部分机器翻译数据集上使得质量下降。
Sep, 2022
本文提出了一种基于测试设计的方法,用于概念化和评估自然语言生成评价指标的可靠性和有效性,并介绍了关于测量理论的核心概念及评估自然语言生成指标性能的关键方法。通过该框架的使用,本研究旨在促进设计、评估和解释可靠和有效的指标,最终为实际应用中健壮和效果良好的自然语言生成模型的提升做出贡献。
May, 2023
本文介绍了一种基于统计模型的文本生成评估方法,利用自动化度量的优点和人工评级的精度,通过最佳组合的方式来改进文本生成评估的准确度,而且只需要使用人工评注的50%即可获得与100%人工评级相同的评估结果。
Jun, 2023
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
本研究聚焦于自然语言生成(NLG)任务中自动评测指标的使用现状,揭示了现有做法的不足,包括不当的指标选择、缺乏实施细节以及与人类评判的相关性缺失。同时,提出了改进建议,以提高该领域的评估规范性。
Aug, 2024