Mar, 2024
文本多样性的标准化测量:工具和分数的比较分析
Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores
Chantal Shaib, Joe Barrow, Jiuding Sun, Alexa F. Siu, Byron C. Wallace...
TL;DR通过对英文文本的计算性高压缩算法和 $n$-gram 重叠同质性得分的测量,我们发现多种测量指标的组合(如压缩比、长 $n$-gram 的自我重复、Self-BLEU 和 BERTScore)足以报告多样性得分,并可应用于生成模型、调试指导型数据集和人工生产文本的分析。