面向大规模多领域多语言可读性评估

May, 2023

面向大规模多领域多语言可读性评估

Towards Massively Multi-domain Multilingual Readability Assessment

Tarek Naous, Michael J. Ryan, Mohit Chandra, Wei Xu

TL;DR本文介绍了 ReadMe++，这是一种用于自动可读性评估的大规模多领域多语言数据集，提供了手动标注的 6,330 个句子，涵盖了阿拉伯语、英语和印地语等几种语言，采用了句子级别的注释方法，并使用了 CEFR 和 Rank-and-Rate 注释框架来减少注释主观性。试验结果显示，使用 ReadMe++ 微调的模型具有强大的跨语言传递能力和对未知领域的泛化能力。

Abstract

We present ReadMe++, a massively multi-domain multilingual dataset for automatic readability assessment. Prior work on readability assessment

readability assessment massively multi-domain multilingual dataset sentence-level annotation cross-lingual transfer capabilities common european framework of reference for languages

发现论文，激发创造

MedReadMe：医学领域细粒度句子可读性的系统研究

在医学领域，我们介绍了一项系统性研究，对医学文本的可读性进行了细致的测量，并提出了一个名为 MedReadMe 的新数据集，其中包括了 4,520 个句子的可读性评级和复杂语言范围的注释。通过我们的优质注释，我们改进了针对医学领域特定的若干最新句子级别的可读性度量方法，其中包括无监督、有监督和基于提示的方法，并发现将专业术语范围数目作为特征加入现有的可读性公式可以显著提高其与人类判断的相关性。我们将公开发布该数据集和代码。

May, 2024

阿拉伯语可读性建模策略

本文利用不同的方法从基于规则的方法到预训练的阿拉伯语言模型，针对阿拉伯语可读性评估提供了一系列实验结果。我们在不同的文本粒度级别（单词和句子片段）上报告了新创建的语料库上的结果。我们的结果表明，结合不同的技术可以取得最佳结果，在盲测集上的宏 F1 分数在单词级别为 86.7，在片段级别为 87.9。我们公开提供我们的代码、数据和预训练模型。

Jul, 2024

一个用于评分维基百科可读性的开放多语言系统

通过构建多语言模型评价维基百科文章的可读性，作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率，并且提供了维基百科的可读性状况的第一个概述。

Jun, 2024

二语学习者文本可读性评估

该研究针对非英语母语者阅读理解评估的不足，提出了一种利用一般化方法和自学习技术，借助母语数据提高 L2 数据系统表现的模型，并在学习者文本的可读性评估方面取得了精度为 0.797 和相关系数为 0.938 的结果。

Jun, 2019

多语言多领域关系抽取数据集 Multi-CrossRE

本研究提出了多语言关系抽取（RE）数据集 Multi-CrossRE，涵盖了英语以外的 26 种语言和六种文本领域，并运用基线模型验证其高质量的机器翻译结果。

May, 2023

基于迁移学习的德语文本可读性评估模型

本研究基于迁移学习提出了一种新的德文文本复杂度评估模型，结果表明该模型优于传统的基于文本语言特征提取的解决方案，最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。

Jul, 2022

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

Belebele 基准测试：122 种语言变体的平行阅读理解数据集

我们提供了 Belebele，这是一个涵盖了 122 种语言的多选机器阅读理解（MRC）数据集。该数据集显著扩展了自然语言理解（NLU）基准的语言覆盖范围，在高、中、低资源语言中评估了文本模型，从而使得对模型性能的直接比较成为可能。通过这个数据集，我们评估了多语言掩码语言模型（MLMs）和大型语言模型（LLMs）的能力，并得出了一些结论。

Aug, 2023

ReadNet: 用于 Web 文章可读性分析的分层 Transformer 框架

本文提出了一种基于自注意力模型的新的综合框架，用于分析文档易读性，并在多个基准数据集上证明该方法在估计各种网络文章和文学阅读易读性方面的表现优于现有的基线方法。

Mar, 2021

MReD：结构可控文本生成的元评审数据集

本文介绍了一个名为 MReD 的新的文本生成数据集，该数据集包括 7,089 个元评价，其 45,000 个元评价句子都手动标注了 9 种分类，包括摘要、强度、决定等，并提出了使用我们注释的数据进行结构控制生成的抽取和生成式模型的方法。通过探索各种设置并分析模型行为，我们展示了我们提出的任务的挑战和 MReD 数据集的价值。同时，MReD 也使我们能够更好地理解元审查领域。

Oct, 2021