探索土耳其文本可读性的语言特征

Jun, 2023

探索土耳其文本可读性的语言特征

Exploring Linguistic Features for Turkish Text Readability

Ahmet Yavuz Uluslu, Gerold Schneider

TL;DR本文利用最先进的神经网络模型和语言特征，对土耳其文本进行自动易读性评估，比较了传统易读公式和现代自动方法的有效性，并确定了影响土耳其文本易读性的关键语言特征。

Abstract

This paper presents the first comprehensive study on automatic readability assessment of turkish texts. We combine state-of-the-art neural network models with →

automatic readability assessment turkish texts neural network linguistic features readability formulas

发现论文，激发创造

可读性评估的语言特征

本文旨在通过将语言学特征与深度学习模型相结合，评估阅读难度，发现在足够的训练数据下，使用语言学特征并不能提高深度学习模型的性能。

May, 2020

Turkish 的自动词汇简化

本文提出了第一个适用于土耳其语的自动词汇简化系统，该系统利用预训练模型 BERT 和形态学特征来生成语法正确和语义恰当的单词级简化，以解决土耳其语作为低资源语言难以逼近的文本简化任务。

Jan, 2022

土耳其母语识别

本文首次将母语辨识（NLI）应用于土耳其语。我们使用土耳其学习者语料库，结合三种句法特征（CFG 生成规则、词性 n-gram 和功能词）来证明它们在该任务中的有效性。

Jul, 2023

文本可读性评估：变形金刚与手工语言特征的结合

本文介绍了两个优化可读性评估的方法：1. 引入三个新的高级语义特征 2. 明确传统的 ML 模型（如随机森林）可以与 transformers（如 RoBERTa）结合来提高模型性能，通过使用自行开发的特征提取软件提取 255 个特征并构建了几个混合模型，在流行的可读性评估数据集上实现了最先进的准确性。其中手工制作的特征有助于提高小型数据集的模型性能。值得注意的是，我们的 RoBERTA-RF-T1 混合模型实现了近乎完美的 99％分类精度，比之前最先进的模型提高了 20.3％。

Sep, 2021

基于迁移学习的德语文本可读性评估模型

本研究基于迁移学习提出了一种新的德文文本复杂度评估模型，结果表明该模型优于传统的基于文本语言特征提取的解决方案，最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。

Jul, 2022

文本可读性的有监督和无监督神经方法

该研究提出了一系列新颖的神经监督和无监督方法来确定文档的易读性。通过在多个基准和新标记的易读性数据集上系统比较几种神经体系结构，提供了不同神经方法进行易读性分类的综合分析，并展示了它们的优缺点。

Jul, 2019

显微镜下：菲律宾可读性评估模型的解读

本研究通过全局和局部模型解释的方法，探讨了不同的语言特征对 Filipino 语言基于机器学习的可读性评估模型推理影响的贡献，结果表明使用全局解释所得到的前几个特征比 Spearman 相关性选择的特征表现更好，同时还观察到对于区分阅读难度的局部特征权重边界以及相关影响。

Oct, 2021

衡量（心理）语言和易读性特征以及它们的溢出效应对预测眼动模式的影响

本文报告了两个眼动追踪语料库和两种语言模型（BERT 和 GPT-2）的实验结果。实验表明，预测自然阅读过程中多种眼动追踪参数时，包含的特征和基于 transformer 的语言模型的架构都发挥了作用。同时通过 SP-LIME，实验分析了不同特征组的相对重要性。

Mar, 2022

二语学习者文本可读性评估

该研究针对非英语母语者阅读理解评估的不足，提出了一种利用一般化方法和自学习技术，借助母语数据提高 L2 数据系统表现的模型，并在学习者文本的可读性评估方面取得了精度为 0.797 和相关系数为 0.938 的结果。

Jun, 2019

利用相关图学习句法密集嵌入以进行自动可读性评估

本研究提出了一种在神经网络模型中加入语言特征的方法，通过学习基于语言特征的句法密集嵌入，在语言特征间建立相关性图并利用其来学习嵌入来解决特征间的关系，实验证明该方法显著提高了自动易读性评估的性能，能够与 BERT 仅有模型相辅相成。

Jul, 2021