Apr, 2024

Suvach -- 生成的印地语 QA 基准

TL;DR为了在印度语中评估问答(QA)的当前评估基准,常常依赖于现有英语数据集的机器翻译。这种方法存在机器翻译中固有的偏见和不准确性,导致可能不能反映印度语 EQA 模型真实能力的数据集。本文提出了一个专门设计用于评估印度语 EQA 模型的新基准,并讨论了同样用于任何任务的方法。该方法利用大型语言模型(LLMs)在提取的环境中生成高质量的数据集,确保其对目标语言的相关性。我们相信这个新资源将通过提供更准确可靠的评估工具来促进印度语 NLP 研究的进展。