Mar, 2024

文本多样性的标准化测量:工具和分数的比较分析

TL;DR通过对英文文本的计算性高压缩算法和 $n$-gram 重叠同质性得分的测量,我们发现多种测量指标的组合(如压缩比、长 $n$-gram 的自我重复、Self-BLEU 和 BERTScore)足以报告多样性得分,并可应用于生成模型、调试指导型数据集和人工生产文本的分析。