EMNLPOct, 2023

BLESS:句子简化上的大型语言模型基准测试

TL;DR我们提出了 BLESS,它是关于最新一代语言模型在文本简化任务上的全面性能基准。我们评估了 44 个模型在三个不同领域(维基百科、新闻、医学)的少样本测试集上的表现,并考察了这些模型的尺寸、架构、预训练方法和可访问性。我们采用一系列自动指标和大规模定量研究,揭示了这些模型执行的常见编辑操作类型。此外,我们对一部分模型输出进行了手动定性分析,以更好地评估生成的简化的质量。评估结果显示,最佳的语言模型,尽管没有在文本简化上进行过训练,与最新的文本简化基准相当。此外,我们发现某些语言模型展示了更大范围和多样性的编辑操作。我们的性能基准将作为未来文本简化方法和评估指标的资源。