mCSQA: 采用语言模型和人类统一创建策略的多语言常识推理数据集

ACLJun, 2024

mCSQA: 采用语言模型和人类统一创建策略的多语言常识推理数据集

mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans

Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

TL;DR通过语言模型的构建过程，使用 LM 生成问题 / 答案、改进答案和验证 QA，然后减少人工验证的工作量，我们提出了 Multilingual CommonsenseQA（mCSQA），这是一个用于评估多语言 LM 的跨语言语言传递能力的基准数据集。实验结果表明，多语言 LM 在处理容易解决的问题时具有较高的语言传递能力，但处理需要深入知识或常识的问题时传递能力较低。这凸显了对语言特定数据集进行评估和训练的必要性，最后，我们的方法证明了多语言 LM 能够创建包含语言特定知识的 QA，与手动创建相比，显著降低了数据集创建成本。

Abstract

It is very challenging to curate a dataset for language-specific knowledge and common sense in order to evaluate natural language understanding capabilities of language models. Due to the limitation in the availa

language-specific knowledge common sense multilingual commonsenseqa cross-lingual language-transfer capabilities multilingual lms

发现论文，激发创造

超越英语的常识：评估和改进多语言常识推理语言模型

为了促进通识推理（CSR）的进一步发展，作者提出了用于评估和改进流行的多语言语言模型（ML-LMs）的方法，其中包括收集 Mickey 语料库、提出综合的评估方法和介绍多语言对比预训练（MCP）的有效性。作者还创建了两个新数据集，X-CSQA 和 X-CODAH，以评估流行的 ML-LMs 用于跨语言通识推理的能力。

Jun, 2021

MLQA：评估跨语言抽取式问答

该研究提出了一个名为 MLQA 的多语言提取式问答（QA）评估基准，旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例，并使用一种新颖的对齐上下文策略，基于 Wikipedia 文章构建，以此作为现有提取式 QA 数据集的跨语言扩展。

Oct, 2019

MKQA：面向多语言开放域问题回答的语言多样性基准测试

研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集 “Multilingual Knowledge Questions and Answers”（MKQA），包括 10k 个问题 - 答案对，跨越 26 种语言（总计 260k 个问题 - 答案对）。结果表明，即使在英语中，这个数据集也具有挑战性，尤其是在低资源语言中。

Jul, 2020

M2QA：多领域多语言问答

通过引入多领域多语言问题回答基准 M2QA，并利用其探索经过微调的模型、最新最先进的 LLM 的跨语言跨领域性能，以及研究模块化方法对领域和语言进行适应，我们发现模型类别内在领域 - 语言组合上具有相当大的性能差异，并且在所有模型规模上源语言 - 目标语言 / 领域组合之间存在显著的性能下降。我们证明了 M2QA 并未得到完全解决，需要新的方法来有效地传递语言和领域特定信息。

Jul, 2024

MahaSQuAD：马拉地语问答中的语言桥梁

通过使用强大的数据策划方法，我们翻译了英语问答数据集（SQuAD），解决了低资源语言中无高效问答数据集的问题。我们引入了 MahaSQuAD，这是第一个适用于印度马拉地语的完整 SQuAD 数据集，包含 118,516 个训练样本、11,873 个验证样本和 11,803 个测试样本。另外，我们还提供了一个手动验证的黄金测试集，包含 500 个例子。通过解决上下文和语言细微差异的挑战，我们确保了准确的翻译。此外，由于无法简单地将问答数据集直接转换为任何低资源语言，我们需要一种强大的方法将答案翻译映射到译文段落中的相应部分。因此，为了解决这一挑战，我们还提出了一种通用方法，可以将 SQuAD 翻译成任何低资源语言。因此，在问题回答系统领域，我们提供了一种可扩展的方法，弥合了低资源语言中存在的语言和文化差距。数据集和模型已公开共享于此 https URL。

Apr, 2024

ZusammenQA：专用模型数据增强的跨语言开放检索问答系统

该论文提出了一种用于 COQA 多语言问题解答的系统，该系统使用多种模型变体在数据增强、语段检索和答案生成三个主要组件上进行了研究，并结合语言模型预训练和数据增强等方法有效提高了针对低资源语言的表现。

May, 2022

CCQA：用于模型预训练的新型 Web 规模问答数据集

本文提出一种在 Common Crawl 项目的基础上，使用大规模、自然、多样化问答数据集进行领域内预训练的方法，该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置，展示了预训练在该任务中的潜力。

Oct, 2021

QALD-9-plus: 面向 DBpedia 和 Wikidata 的多语言问题回答数据集（由本地说话人翻译）

通过将高质量问题的翻译引入到最受欢迎的 KGQA 基准测试之一 QALD-9 中，从 DBpedia 到 Wikidata 的迁移和添加 8 种语言的支持来扩展 QALD-9 基准测试，从而增强了数据集的可用性和相关性，该数据集称为 QALD-9-Plus，将提供在线支持。

Jan, 2022

SynDARin: 用于低资源语言的自动推理数据集合成

提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin，该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落，使用英语数据作为上下文生成合成的多项选择问题 - 回答对，并经过自动翻译和质量验证。人类评估显示，生成的英文数据在问题类型和主题方面保持了 98% 的质量和多样性，翻译验证流程能够过滤掉约 70% 质量差的数据。使用数据集对最先进的大模型进行评估表明，它们无法达到人类的准确性，部分模型的表现接近随机机会。这表明生成的数据集非平凡，并可用于评估低资源语言中的推理能力。

Jun, 2024

童话问答：将常识知识图谱融入儿童故事书叙述

AI 模型通过使用以叙述为基础的问答数据集来提供定制化问答功能，以支持面向儿童教育应用；然而，现有数据集仅包括基于故事内容的问答对，而当教师将故事内容与现实世界的知识（例如常识知识）进行关联时，儿童可以学到更多。我们引入了由儿童教育专家注释的 FairytaleCQA 数据集，用于补充 278 个故事叙述的教育适用的常识知识。该数据集包含 5,868 个问答对，不仅源自故事叙述，而且包含由外部知识图（即 ConceptNet）支持的常识知识。后续实验表明，使用 FairytaleCQA 对较小模型（T5-large）进行微调，可在新的问答对生成任务（QAG）中可靠地胜过更大的提示工程化语言模型（例如 GPT-4）。这一结果表明：1）我们的数据集给现有语言模型带来了新的挑战，2）人类专家的数据注释仍然至关重要，因为他们在儿童教育领域拥有着更多细微的知识，语言模型不知晓。

Nov, 2023