基于迁移学习的德语文本可读性评估模型
该研究针对非英语母语者阅读理解评估的不足,提出了一种利用一般化方法和自学习技术,借助母语数据提高 L2 数据系统表现的模型,并在学习者文本的可读性评估方面取得了精度为 0.797 和相关系数为 0.938 的结果。
Jun, 2019
本研究通过全局和局部模型解释的方法,探讨了不同的语言特征对 Filipino 语言基于机器学习的可读性评估模型推理影响的贡献,结果表明使用全局解释所得到的前几个特征比 Spearman 相关性选择的特征表现更好,同时还观察到对于区分阅读难度的局部特征权重边界以及相关影响。
Oct, 2021
本文提出了一种基于 BERT 模型的阅读难度评估方法,利用困难程度知识指导半监督学习从而补充传统语言学特征,提出投影过滤和长度平衡损失来补充 BERT 表示,并在两个英文基准数据集和一组中文教科书数据集上取得了最先进的性能,远超人类专家。
Oct, 2022
该研究提供了 TextComplexityDE 数据集,其中包括 1000 个句子,采自不同领域的 23 篇德文维基百科文章,用于开发文本复杂性预测模型和德语自动文本简化。该数据集包括由德语学习者在 A 和 B 级别提供的不同文本复杂度方面的主观评估,此外,还包括了由母语德语者提供的 250 个句子的手动简化以及目标群体参与者对简化后句子的主观评估。主观评级使用实验室研究和众包方法进行收集。
Apr, 2019
本文采用预训练的 seq2seq 模型对可读性进行评估,并通过测试不同的输入输出格式 / 前缀来提高模型性能,在 Newsela 和 OneStopEnglish 上实现 99.6% 和 98.7% 的成对分类精度。
Feb, 2023
该研究针对捷克语读解系统建立,通过自动翻译 SQuaD 1.1 和 2.0 数据集,并训练和评估了多个 BERT 和 XLM-RoBERTa 基准模型,证明了跨语言转移方法的成功性。
Jul, 2020
该研究提供了一个从网络资源中编制而来的德语语料库,可用于自动易读性评估和自动文本简化,并包含文字结构、排版和图片信息,可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。
Sep, 2019
本文介绍了我们在 Text Complexity DE Challenge 2022 中提交的论文,我们的目标是预测德语学习者在 B 级别的德语句子的复杂度,我们的方法是依靠超过 220,000 个伪标签训练基于 Transformer 的模型,使用了德语维基百科和其他语料库。该伪标签方法表现出卓越的结果,并且不需要任何特征工程或额外的标注数据,易于适应其他领域和任务。
Aug, 2022
本文介绍了两个优化可读性评估的方法:1. 引入三个新的高级语义特征 2. 明确传统的 ML 模型(如随机森林)可以与 transformers(如 RoBERTa)结合来提高模型性能,通过使用自行开发的特征提取软件提取 255 个特征并构建了几个混合模型,在流行的可读性评估数据集上实现了最先进的准确性。其中手工制作的特征有助于提高小型数据集的模型性能。值得注意的是,我们的 RoBERTA-RF-T1 混合模型实现了近乎完美的 99%分类精度,比之前最先进的模型提高了 20.3%。
Sep, 2021