跨语言数据集规模测量差异的问题

Mar, 2024

跨语言数据集规模测量差异的问题

A Bit of a Problem: Measurement Disparities in Dataset Sizes Across Languages

Catherine Arnett, Tyler A. Chang, Benjamin K. Bergen

TL;DR对于不同语言，即使是内容匹配（平行）的语料库，UTF-8编码的文本可能需要不同数量的字节。我们的研究定义了两种语言之间的字节溢价为在这些语言中编码内容匹配的文本所使用的字节数比例。我们计算了1155种语言的字节溢价，并使用线性回归为其他语言估计字节溢价。我们发布了一个工具，可以获取任意两种语言的字节溢价，以便更公平地进行多语言模型开发和数据实践中的数据集大小比较。

Abstract

How should text dataset sizes be compared across languages? Even for content-matched (parallel) corpora, utf-8 encoded text can require a dramatically different number of bytes for different languages. In our wor