探索土耳其文本可读性的语言特征
本文提出了第一个适用于土耳其语的自动词汇简化系统,该系统利用预训练模型 BERT 和形态学特征来生成语法正确和语义恰当的单词级简化,以解决土耳其语作为低资源语言难以逼近的文本简化任务。
Jan, 2022
本文首次将母语辨识(NLI)应用于土耳其语。我们使用土耳其学习者语料库,结合三种句法特征(CFG 生成规则、词性 n-gram 和功能词)来证明它们在该任务中的有效性。
Jul, 2023
本文介绍了两个优化可读性评估的方法:1. 引入三个新的高级语义特征 2. 明确传统的 ML 模型(如随机森林)可以与 transformers(如 RoBERTa)结合来提高模型性能,通过使用自行开发的特征提取软件提取 255 个特征并构建了几个混合模型,在流行的可读性评估数据集上实现了最先进的准确性。其中手工制作的特征有助于提高小型数据集的模型性能。值得注意的是,我们的 RoBERTA-RF-T1 混合模型实现了近乎完美的 99%分类精度,比之前最先进的模型提高了 20.3%。
Sep, 2021
本研究基于迁移学习提出了一种新的德文文本复杂度评估模型,结果表明该模型优于传统的基于文本语言特征提取的解决方案,最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。
Jul, 2022
该研究提出了一系列新颖的神经监督和无监督方法来确定文档的易读性。通过在多个基准和新标记的易读性数据集上系统比较几种神经体系结构,提供了不同神经方法进行易读性分类的综合分析,并展示了它们的优缺点。
Jul, 2019
本研究通过全局和局部模型解释的方法,探讨了不同的语言特征对 Filipino 语言基于机器学习的可读性评估模型推理影响的贡献,结果表明使用全局解释所得到的前几个特征比 Spearman 相关性选择的特征表现更好,同时还观察到对于区分阅读难度的局部特征权重边界以及相关影响。
Oct, 2021
本文报告了两个眼动追踪语料库和两种语言模型(BERT 和 GPT-2)的实验结果。实验表明,预测自然阅读过程中多种眼动追踪参数时,包含的特征和基于 transformer 的语言模型的架构都发挥了作用。同时通过 SP-LIME,实验分析了不同特征组的相对重要性。
Mar, 2022
该研究针对非英语母语者阅读理解评估的不足,提出了一种利用一般化方法和自学习技术,借助母语数据提高 L2 数据系统表现的模型,并在学习者文本的可读性评估方面取得了精度为 0.797 和相关系数为 0.938 的结果。
Jun, 2019
本研究提出了一种在神经网络模型中加入语言特征的方法,通过学习基于语言特征的句法密集嵌入,在语言特征间建立相关性图并利用其来学习嵌入来解决特征间的关系,实验证明该方法显著提高了自动易读性评估的性能,能够与 BERT 仅有模型相辅相成。
Jul, 2021