Jun, 2024

SynDARin: 用于低资源语言的自动推理数据集合成

TL;DR提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin,该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落,使用英语数据作为上下文生成合成的多项选择问题 - 回答对,并经过自动翻译和质量验证。人类评估显示,生成的英文数据在问题类型和主题方面保持了 98% 的质量和多样性,翻译验证流程能够过滤掉约 70% 质量差的数据。使用数据集对最先进的大模型进行评估表明,它们无法达到人类的准确性,部分模型的表现接近随机机会。这表明生成的数据集非平凡,并可用于评估低资源语言中的推理能力。