INDIC QA BENCHMARK：评估印度语系大语言模型问答能力的多语言基准

Jul, 2024

INDIC QA BENCHMARK：评估印度语系大语言模型问答能力的多语言基准

INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages

Abhishek Kumar Singh, Rudra Murthy, Vishwajeet kumar, Jaydeep Sen, Ganesh Ramakrishnan

TL;DR为了评估大型语言模型（LLMs）在非英语语言的上下文问题回答能力，我们引入了Indic-QA，这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务，其中既包括现有数据集，也包括翻译成印度语言的英语问题回答数据集。此外，我们使用Gemini模型生成了一个合成数据集，用于创建给定段落的问题-回答对，随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体，并观察到它们的性能相对低下，特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。

Abstract

large language models (LLMs) have demonstrated remarkable zero-shot and few-shot capabilities in unseen tasks, including context-grounded question answering (QA) in English. However, the evaluation of LLMs' capabilities in →

发现论文，激发创造

MKQA：面向多语言开放域问题回答的语言多样性基准测试

研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”（MKQA），包括10k个问题-答案对，跨越26种语言（总计260k个问题-答案对）。结果表明，即使在英语中，这个数据集也具有挑战性，尤其是在低资源语言中。

Jul, 2020

在印地语和泰米尔语中针对问题的抽取式问答

本篇研究旨在建立自然语言处理模型，通过针对印度语的公共数据集进行微调以及训练，使得机器的提取问答任务的表现比已有模型更为优秀。基于 RoBERTa 模型构建的两种模型表现最好，证实了对于特定语言任务而言，训练数据的特异性对模型的表现影响更大。

Sep, 2022

LLM 中能否生成与文化相关的常识问答数据？印尼文和巽他语案例研究

使用大型语言模型生成问题回答数据集，尤其是针对低资源语言，存在领域知识和文化细微差别的困难；实验证明最佳的大型语言模型GPT-4 Turbo能够生成具备充分知识的印度尼西亚语问题，但在苏丹尼斯语上表现欠佳，凸显中资源语言与低资源语言之间的性能差异；此外，我们对各种大型语言模型在生成数据集上进行基准测试，结果表明它们在由语言模型生成的数据集上表现比人工创造的数据集更好。

Feb, 2024

使用MultiQ评估大型语言模型的基础多语言能力

研究表明，尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言，人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题，探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现，在一些语言中，这些模型在回答问题时表现得既忠实又准确，而大多数模型在忠实于回答问题时的准确性更高，但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释，发现了可能存在的相关性，值得进一步研究。

Mar, 2024

IndicGenBench：用于评估LLMs在印度语言上的生成能力的多语言基准测试

印度是一个拥有14亿人口的语言多样性国家，为了促进多语言大型语言模型的研究和评估，我们发布了IndicGenBench，这是一个覆盖13种脚本、4种语系以及29种印度语言的最大基准。我们对包括GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM和LLaMA在内的各种大型语言模型在IndicGenBench上的表现进行了评估，结果显示多数任务中表现最好的是最大的PaLM-2模型，但与英语相比，所有语言都存在显著的性能差距，因此我们需要进一步的研究来开发更具包容性的多语言语言模型。

Apr, 2024

Suvach -- 生成的印地语QA基准

为了在印度语中评估问答（QA）的当前评估基准，常常依赖于现有英语数据集的机器翻译。这种方法存在机器翻译中固有的偏见和不准确性，导致可能不能反映印度语EQA模型真实能力的数据集。本文提出了一个专门设计用于评估印度语EQA模型的新基准，并讨论了同样用于任何任务的方法。该方法利用大型语言模型（LLMs）在提取的环境中生成高质量的数据集，确保其对目标语言的相关性。我们相信这个新资源将通过提供更准确可靠的评估工具来促进印度语NLP研究的进展。

Apr, 2024

SynDARin: 用于低资源语言的自动推理数据集合成

提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin，该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落，使用英语数据作为上下文生成合成的多项选择问题-回答对，并经过自动翻译和质量验证。人类评估显示，生成的英文数据在问题类型和主题方面保持了 98% 的质量和多样性，翻译验证流程能够过滤掉约 70% 质量差的数据。使用数据集对最先进的大模型进行评估表明，它们无法达到人类的准确性，部分模型的表现接近随机机会。这表明生成的数据集非平凡，并可用于评估低资源语言中的推理能力。

Jun, 2024

CaLMQA: 跨23种语言探索跨文化特定长篇问答

通过介绍CaLMQA，一个涵盖23种语言的2.6K多样化问题集，我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降，这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。

Jun, 2024

NativQA: 多语种、与文化相协调的 LLM 自然查询

提出了一个可扩展的框架NativQA，以母语构建与地域文化契合的自然问答（QA）多语种数据集MultiNativQA，为大型语言模型（LLM）的评估和调优提供支持，并通过公开配置在区域和文化特异性上对MultiNativQA数据集进行了基准测试。

Jul, 2024

L3Cube-IndicQuest：评估大型语言模型在印度背景下知识的问答基准数据集

本研究解决了评估大型语言模型（LLMs）在印地语区知识掌握能力的缺乏基准数据集的问题。提出的L3Cube-IndicQuest数据集包含200个涵盖19种印地语言的问答对，旨在量化评估多语言LLMs在理解和呈现印度特定知识方面的表现。此数据集的发布将为相关领域的研究提供标准参照，促进LLMs的进一步发展。

Sep, 2024