基于迁移学习的德语文本可读性评估模型

Jul, 2022

基于迁移学习的德语文本可读性评估模型

A Transfer Learning Based Model for Text Readability Assessment in German

Salar Mohtaj, Babak Naderi, Sebastian Möller, Faraz Maschhur, Chuyang Wu...

TL;DR本研究基于迁移学习提出了一种新的德文文本复杂度评估模型，结果表明该模型优于传统的基于文本语言特征提取的解决方案，最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。

Abstract

text readability assessment has a wide range of applications for different target people, from language learners to people with disabilities. The fast pace of textual content production on the web makes it impossible to measure text complexity without the benefit of →

text readability machine learning natural language processing german text transfer learning

发现论文，激发创造

使用 Transformer 集合自动评估德语句子的可读性

本文讨论了使用深度学习方法和语言学特征分析混合模型提高德语句子阅读理解测评的可靠性，最终团队使用的混合模型表现更好。

Sep, 2022

二语学习者文本可读性评估

该研究针对非英语母语者阅读理解评估的不足，提出了一种利用一般化方法和自学习技术，借助母语数据提高 L2 数据系统表现的模型，并在学习者文本的可读性评估方面取得了精度为 0.797 和相关系数为 0.938 的结果。

Jun, 2019

显微镜下：菲律宾可读性评估模型的解读

本研究通过全局和局部模型解释的方法，探讨了不同的语言特征对 Filipino 语言基于机器学习的可读性评估模型推理影响的贡献，结果表明使用全局解释所得到的前几个特征比 Spearman 相关性选择的特征表现更好，同时还观察到对于区分阅读难度的局部特征权重边界以及相关影响。

Oct, 2021

一种融合特征投影和长度平衡损失的可读性评估神经网络模型

本文提出了一种基于 BERT 模型的阅读难度评估方法，利用困难程度知识指导半监督学习从而补充传统语言学特征，提出投影过滤和长度平衡损失来补充 BERT 表示，并在两个英文基准数据集和一组中文教科书数据集上取得了最先进的性能，远超人类专家。

Oct, 2022

德语文本复杂度的主观评估数据集

该研究提供了 TextComplexityDE 数据集，其中包括 1000 个句子，采自不同领域的 23 篇德文维基百科文章，用于开发文本复杂性预测模型和德语自动文本简化。该数据集包括由德语学习者在 A 和 B 级别提供的不同文本复杂度方面的主观评估，此外，还包括了由母语德语者提供的 250 个句子的手动简化以及目标群体参与者对简化后句子的主观评估。主观评级使用实验室研究和众包方法进行收集。

Apr, 2019

基于提示的文本易读性评估学习

本文采用预训练的 seq2seq 模型对可读性进行评估，并通过测试不同的输入输出格式 / 前缀来提高模型性能，在 Newsela 和 OneStopEnglish 上实现 99.6% 和 98.7% 的成对分类精度。

Feb, 2023

通过机器翻译和跨语言转移在捷克语阅读理解

该研究针对捷克语读解系统建立，通过自动翻译 SQuaD 1.1 和 2.0 数据集，并训练和评估了多个 BERT 和 XLM-RoBERTa 基准模型，证明了跨语言转移方法的成功性。

Jul, 2020

德语自动易读性评估和文本简化语料库

该研究提供了一个从网络资源中编制而来的德语语料库，可用于自动易读性评估和自动文本简化，并包含文字结构、排版和图片信息，可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。

Sep, 2019

伪标签就是你所需

本文介绍了我们在 Text Complexity DE Challenge 2022 中提交的论文，我们的目标是预测德语学习者在 B 级别的德语句子的复杂度，我们的方法是依靠超过 220,000 个伪标签训练基于 Transformer 的模型，使用了德语维基百科和其他语料库。该伪标签方法表现出卓越的结果，并且不需要任何特征工程或额外的标注数据，易于适应其他领域和任务。

Aug, 2022

文本可读性评估：变形金刚与手工语言特征的结合

本文介绍了两个优化可读性评估的方法：1. 引入三个新的高级语义特征 2. 明确传统的 ML 模型（如随机森林）可以与 transformers（如 RoBERTa）结合来提高模型性能，通过使用自行开发的特征提取软件提取 255 个特征并构建了几个混合模型，在流行的可读性评估数据集上实现了最先进的准确性。其中手工制作的特征有助于提高小型数据集的模型性能。值得注意的是，我们的 RoBERTA-RF-T1 混合模型实现了近乎完美的 99％分类精度，比之前最先进的模型提高了 20.3％。

Sep, 2021