可读性评估的语言特征
本研究提出了一种在神经网络模型中加入语言特征的方法,通过学习基于语言特征的句法密集嵌入,在语言特征间建立相关性图并利用其来学习嵌入来解决特征间的关系,实验证明该方法显著提高了自动易读性评估的性能,能够与 BERT 仅有模型相辅相成。
Jul, 2021
本文利用最先进的神经网络模型和语言特征,对土耳其文本进行自动易读性评估,比较了传统易读公式和现代自动方法的有效性,并确定了影响土耳其文本易读性的关键语言特征。
Jun, 2023
该研究提出了一系列新颖的神经监督和无监督方法来确定文档的易读性。通过在多个基准和新标记的易读性数据集上系统比较几种神经体系结构,提供了不同神经方法进行易读性分类的综合分析,并展示了它们的优缺点。
Jul, 2019
本研究通过全局和局部模型解释的方法,探讨了不同的语言特征对 Filipino 语言基于机器学习的可读性评估模型推理影响的贡献,结果表明使用全局解释所得到的前几个特征比 Spearman 相关性选择的特征表现更好,同时还观察到对于区分阅读难度的局部特征权重边界以及相关影响。
Oct, 2021
本文介绍了两个优化可读性评估的方法:1. 引入三个新的高级语义特征 2. 明确传统的 ML 模型(如随机森林)可以与 transformers(如 RoBERTa)结合来提高模型性能,通过使用自行开发的特征提取软件提取 255 个特征并构建了几个混合模型,在流行的可读性评估数据集上实现了最先进的准确性。其中手工制作的特征有助于提高小型数据集的模型性能。值得注意的是,我们的 RoBERTA-RF-T1 混合模型实现了近乎完美的 99%分类精度,比之前最先进的模型提高了 20.3%。
Sep, 2021
本文提出了一种基于 BERT 模型的阅读难度评估方法,利用困难程度知识指导半监督学习从而补充传统语言学特征,提出投影过滤和长度平衡损失来补充 BERT 表示,并在两个英文基准数据集和一组中文教科书数据集上取得了最先进的性能,远超人类专家。
Oct, 2022
本文报告了两个眼动追踪语料库和两种语言模型(BERT 和 GPT-2)的实验结果。实验表明,预测自然阅读过程中多种眼动追踪参数时,包含的特征和基于 transformer 的语言模型的架构都发挥了作用。同时通过 SP-LIME,实验分析了不同特征组的相对重要性。
Mar, 2022
本研究基于迁移学习提出了一种新的德文文本复杂度评估模型,结果表明该模型优于传统的基于文本语言特征提取的解决方案,最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。
Jul, 2022
本文提出使用交叉语言相似性和新特征 CrossNGO,探索手工特性与机器学习模型相交互的自动易读性评估方法,以改善低资源语言的精度。在使用菲律宾三种语言的短篇小说训练模型的过程中发现,使用新特征 CrossNGO 可显著提高交叉语言易读性模型的性能,其中结合语言表示的使用可出现各自语言的最佳结果。
May, 2023
本篇论文提出了一种新方法,通过大规模监督学习从而提供阅读理解的数据集,开发了一类基于注意力机制的深度神经网络,使其能够在没有先前语言结构知识的情况下阅读真实文档并回答复杂问题。
Jun, 2015