可读性评估的语言特征

ACLMay, 2020

Linguistic Features for Readability Assessment

Tovly Deutsch, Masoud Jasbi, Stuart Shieber

TL;DR本文旨在通过将语言学特征与深度学习模型相结合，评估阅读难度，发现在足够的训练数据下，使用语言学特征并不能提高深度学习模型的性能。

Abstract

readability assessment aims to automatically classify text by the level appropriate for learning readers. Traditional approaches to this task utilize a variety of linguistically motivated features paired with sim

readability assessment linguistically motivated features deep learning models performance corpus

发现论文，激发创造

利用相关图学习句法密集嵌入以进行自动可读性评估

本研究提出了一种在神经网络模型中加入语言特征的方法，通过学习基于语言特征的句法密集嵌入，在语言特征间建立相关性图并利用其来学习嵌入来解决特征间的关系，实验证明该方法显著提高了自动易读性评估的性能，能够与 BERT 仅有模型相辅相成。

Jul, 2021

探索土耳其文本可读性的语言特征

本文利用最先进的神经网络模型和语言特征，对土耳其文本进行自动易读性评估，比较了传统易读公式和现代自动方法的有效性，并确定了影响土耳其文本易读性的关键语言特征。

Jun, 2023

文本可读性的有监督和无监督神经方法

该研究提出了一系列新颖的神经监督和无监督方法来确定文档的易读性。通过在多个基准和新标记的易读性数据集上系统比较几种神经体系结构，提供了不同神经方法进行易读性分类的综合分析，并展示了它们的优缺点。

Jul, 2019

显微镜下：菲律宾可读性评估模型的解读

本研究通过全局和局部模型解释的方法，探讨了不同的语言特征对 Filipino 语言基于机器学习的可读性评估模型推理影响的贡献，结果表明使用全局解释所得到的前几个特征比 Spearman 相关性选择的特征表现更好，同时还观察到对于区分阅读难度的局部特征权重边界以及相关影响。

Oct, 2021

文本可读性评估：变形金刚与手工语言特征的结合

本文介绍了两个优化可读性评估的方法：1. 引入三个新的高级语义特征 2. 明确传统的 ML 模型（如随机森林）可以与 transformers（如 RoBERTa）结合来提高模型性能，通过使用自行开发的特征提取软件提取 255 个特征并构建了几个混合模型，在流行的可读性评估数据集上实现了最先进的准确性。其中手工制作的特征有助于提高小型数据集的模型性能。值得注意的是，我们的 RoBERTA-RF-T1 混合模型实现了近乎完美的 99％分类精度，比之前最先进的模型提高了 20.3％。

Sep, 2021

一种融合特征投影和长度平衡损失的可读性评估神经网络模型

本文提出了一种基于 BERT 模型的阅读难度评估方法，利用困难程度知识指导半监督学习从而补充传统语言学特征，提出投影过滤和长度平衡损失来补充 BERT 表示，并在两个英文基准数据集和一组中文教科书数据集上取得了最先进的性能，远超人类专家。

Oct, 2022

衡量（心理）语言和易读性特征以及它们的溢出效应对预测眼动模式的影响

本文报告了两个眼动追踪语料库和两种语言模型（BERT 和 GPT-2）的实验结果。实验表明，预测自然阅读过程中多种眼动追踪参数时，包含的特征和基于 transformer 的语言模型的架构都发挥了作用。同时通过 SP-LIME，实验分析了不同特征组的相对重要性。

Mar, 2022

基于迁移学习的德语文本可读性评估模型

本研究基于迁移学习提出了一种新的德文文本复杂度评估模型，结果表明该模型优于传统的基于文本语言特征提取的解决方案，最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。

Jul, 2022

紧密相关语言的自动可读性评估

本文提出使用交叉语言相似性和新特征 CrossNGO，探索手工特性与机器学习模型相交互的自动易读性评估方法，以改善低资源语言的精度。在使用菲律宾三种语言的短篇小说训练模型的过程中发现，使用新特征 CrossNGO 可显著提高交叉语言易读性模型的性能，其中结合语言表示的使用可出现各自语言的最佳结果。

May, 2023

教授机器阅读和理解

本篇论文提出了一种新方法，通过大规模监督学习从而提供阅读理解的数据集，开发了一类基于注意力机制的深度神经网络，使其能够在没有先前语言结构知识的情况下阅读真实文档并回答复杂问题。

Jun, 2015