LENS: 可学习的文本简化评估度量
自动评估句子简化仍然是一个具有挑战性的问题,我们提出了一种新的学习评估度量 (SLE),该度量侧重于简化,与人类判断相关性方面表现优越。
Oct, 2023
这篇论文介绍了 ASSET 数据集,用于评估句子简化,并展示它相对于其他标准评估数据集的优越性,同时指出现有评估模型可能不够适合使用多重简化转换。
May, 2020
本文探讨了针对在无参考文本的情况下,对简化文本进行质量估计的多种方法,并基于 QATS 2016 的数据集对多个方法进行了比较,最终发现基于 n-gram 的机器翻译度量(如 BLEU 和 METEOR)最能与语法正确性和意义保留的人工评估相匹配,而基于长度的度量方法则最适合衡量简明易懂程度。
Jan, 2019
该研究提出了一种适用于文本摘要和简化的无需参考的评估测量方法 MaskEval,该方法使用了掩码语言模型,通过注意力权重机制来调节每个 MLM 步骤的重要性,从而实现了对不同质量维度的适应性评估。
May, 2022
通过设计错误基础的人类注释框架来评估 GPT-4 在句子简化方面的能力,进一步深入了解大型语言模型的性能,同时确保评估的可靠性。该研究发现 GPT-4 相对于现有最先进的模型来说,普遍生成较少错误的简化输出,但在词汇转述方面仍然存在限制。此外,我们对广泛使用的自动评估指标进行了元评估,发现这些指标在评估 GPT-4 的高质量简化整体能力上缺乏足够的敏感性。
Mar, 2024
本文关注文档级文本简化的评估,并使用不同的指标对现有模型进行比较,其中包括针对简化和意义保持性的指标。通过引入一个无参考的度量变体来展示模型在简化和意义保持两个维度上往往倾向于一方,并且在未知数据上应用现有模型的性能也得到了研究。
Apr, 2024
我们提出了 BLESS,它是关于最新一代语言模型在文本简化任务上的全面性能基准。我们评估了 44 个模型在三个不同领域(维基百科、新闻、医学)的少样本测试集上的表现,并考察了这些模型的尺寸、架构、预训练方法和可访问性。我们采用一系列自动指标和大规模定量研究,揭示了这些模型执行的常见编辑操作类型。此外,我们对一部分模型输出进行了手动定性分析,以更好地评估生成的简化的质量。评估结果显示,最佳的语言模型,尽管没有在文本简化上进行过训练,与最新的文本简化基准相当。此外,我们发现某些语言模型展示了更大范围和多样性的编辑操作。我们的性能基准将作为未来文本简化方法和评估指标的资源。
Oct, 2023
本研究呈现了一个新的数据集以适用于三种语言且提供了建立和评估词汇简化系统所需的高质量数据体。通过采用神经网络架构,对两种高级系统进行了适应和评估,结果在英语中表现最佳。
Sep, 2022
该研究介绍了 MultiSim 基准,这是一个包含 27 种语言的 12 种不同语言资源的集合,其中包含超过 170 万个复杂 - 简单句对,使用预训练的多语言语言模型进行的实验表明具有激动人心的性能提升,证实了跨语言的可行性。
May, 2023