YORC：Yoruba 阅读理解数据集

Aug, 2023

YORC: Yoruba Reading Comprehension dataset

Anuoluwapo Aremu, Jesujoba O. Alabi, David Ifeoluwa Adelani

TL;DR我们创建了 YORC：一个基于尤鲁巴语高中阅读理解考试的新的多选尤鲁巴语阅读理解数据集，并通过使用现有的基于预训练的仅编码器模型的英语 RACE 数据集进行跨语言迁移来提供基准结果。此外，我们还提供了使用大型语言模型（LLMs）（如 GPT-4）进行提示的结果。

Abstract

In this paper, we create yorc: a new multi-choice Yoruba Reading Comprehension dataset that is based on Yoruba high-school reading comprehension examination. We provide →

yorc multi-choice yoruba reading comprehension baseline results large language models

发现论文，激发创造

ORB: 一个开放的阅读基准评估工具，用于机器阅读理解的全面评估

介绍了一种评估服务器 ORB，可以测试模型在 7 个不同的阅读理解数据集上的表现，并且没有制约模型训练的限制，这是一个探索通用阅读能力的训练范式和表征学习的测试平台。

Dec, 2019

ÌròyìnSpeech：一个多功能的约鲁巴语语音语料库

引入了 IroyinSpeech 语料库 - 这是一个受影响于希望增加高质量、免费、当代的约鲁巴语言音频的愿望的新数据集。我们发布了一个多用途数据集，可用于 TTS 和 ASR 任务，并从新闻和创意写作领域中的文本句子进行筛选，使用开放许可证 CC-BY-4.0，并让 80 名志愿者录制了该数据集的 38.5 小时内容。

Jul, 2023

RACE: 大规模考试阅读理解数据集

RACE 是一个用于中学生阅读理解任务评估的新数据集，由近 28,000 个人类专家（英语教师）生成的近 100,000 个问题组成，涵盖了各种主题，特别是对推理的要求比其他基准数据集要高，是研究和评估机器理解的有价值的资源。

Apr, 2017

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

EMBRACE: 评估和修改以提升 RACE

本文针对英语的机器阅读理解中的 RACE 数据集进行了详细的测试和分析，评估了数据集中多项选择问题的难度，并对基准文本做了注释。研究发现多数多项选择问题未能满足阅读理解任务的基本要求，同时发现基准文本的位置分布存在偏差，这可能对多项选择问题的回答和生成模型的评估造成不利影响。

May, 2023

超越只能阅读英语：零样本多语种传递在保加利亚语中的实验

研究了在英文大规模数据集中预训练的多语言 BERT Fine-Tuning 在保加利亚语阅读理解中的效果，构建了一个新的包含历史、生物、地理和哲学等学科的 12 年级毕业考试和 412 个在线历史测验问题的数据集，并利用不同的索引和预训练策略进行实验，评估结果表明，准确率为 42.23％，大大超过了基线水平 24.89％。

Aug, 2019

YFACC: 通过视觉基础定位实现跨语关键字本地化的 Yorùbá 语言语音和图像数据集

本文介绍了一种基于注意力机制的 VGS 模型，通过将图像与 Yorùbá 语言的话语配对并自动标记英文视觉标签，实现了跨语言关键词定位，以解决新兴语种的语音系统数据不足的问题。

Oct, 2022

声音未听到：为约鲁巴地区方言提供的自然语言处理资源和模型

用高质量的平行文本和语音语料库 (YORÙLECT) 跨三个领域和四个地区的尼日利亚约鲁巴语方言开展研究实验，结果表明，标准尼日利亚约鲁巴语和其他方言在机器翻译、自动语音识别和语音到文本翻译等任务中存在明显的差异，在方言自适应微调的情况下，能够缩小这一差距，该研究为尼日利亚约鲁巴语及其方言以及其他非洲语言的自然语言处理工具的发展做出了重要贡献。

Jun, 2024

Orca: 中文对话式机器阅读理解的小样本评测

本篇论文提出了第一个中文对话阅读理解基准 Orca，并提供了零样本 / 少样本设置来评估模型的领域通用能力，包含社交媒体平台上 33 个领域的 831 个热门话题驱动的对话，并实现了三个强基线模型来解决 Orca 中的挑战。

Feb, 2023

ORCA：阿拉伯语言理解挑战基准

介绍了一个公开的基准测试 ORCA 用于评估阿拉伯语言理解，利用 60 个数据集跨越 7 个 NLU 任务簇，用 ORCA 评估了 18 个多语言和阿拉伯语言模型，提供了一个统一的单一数字评估指标。

Dec, 2022