Jun, 2024

为促进公正而收集具有全球视角的扎实合成数据

TL;DR通过综合收集来自 125 个国家的 12 种语言的新闻文章,结合强制的专题多样化、翻译和摘要生成,我们提出了一种新颖的方法来创建合成数据集,这些数据集能够准确地反映真实世界的复杂性,并解决传统数据集中的代表不足问题,初步结果表明,在传统命名实体识别基准测试中,我们的合成数据使性能提升多达 7.3%,突显了我们的合成数据在模拟全球数据源中丰富多样的细微差异方面的有效性。