二语学习者文本可读性评估

Jun, 2019

Text Readability Assessment for Second Language Learners

Menglin Xia, Ekaterina Kochmar, Ted Briscoe

TL;DR该研究针对非英语母语者阅读理解评估的不足，提出了一种利用一般化方法和自学习技术，借助母语数据提高 L2 数据系统表现的模型，并在学习者文本的可读性评估方面取得了精度为 0.797 和相关系数为 0.938 的结果。

Abstract

This paper addresses the task of readability assessment for the texts aimed at second language (L2) learners. One of the major challenges in this task is the lack of significantly sized level-annotated data. For the present work, we collected a dataset of →

readability assessment second language learners cefr-graded texts generalization method self-learning techniques

发现论文，激发创造

基于迁移学习的德语文本可读性评估模型

本研究基于迁移学习提出了一种新的德文文本复杂度评估模型，结果表明该模型优于传统的基于文本语言特征提取的解决方案，最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。

Jul, 2022

LC-Score：无参考文本理解难度评估

我们提出了一个简单的方法 LC-Score，用于训练法语文本的阅读理解指标，通过预测给定文本的易读性来定量捕捉文本与清晰语言指南的契合程度。我们探索了两种方法：使用语言学动机指标训练统计模型，以及从文本中直接利用预训练语言模型进行神经学习。我们通过两个人工注释实验评估了我们的模型，发现两种方法（基于指标和神经）优于常用的可读性和理解度量，如 FKGL 和 SAMSA。

Oct, 2023

显微镜下：菲律宾可读性评估模型的解读

本研究通过全局和局部模型解释的方法，探讨了不同的语言特征对 Filipino 语言基于机器学习的可读性评估模型推理影响的贡献，结果表明使用全局解释所得到的前几个特征比 Spearman 相关性选择的特征表现更好，同时还观察到对于区分阅读难度的局部特征权重边界以及相关影响。

Oct, 2021

Flesch 或 Fumble？评估教学调整的语言模型的可读性标准对齐

对各种语言模型在书写故事补充和简化叙述等生成任务中根据标准的提示控制文本可读性进行性能调查的研究结果表明，ChatGPT 等全球认可的模型可能相对不够有效，需要更精细的提示，而像 BLOOMZ 和 FlanT5 这样的开放源码模型则显示出有希望的结果。

Sep, 2023

英文文本的跨语料易读性兼容性评估

本研究提出了一种新的评估框架 —— 交叉语料库文本易读性兼容性评估（CRCA），包括三个主要组成部分：语料库、分类模型和兼容性指标。研究结果揭示了：OSP 语料库明显不同于其他数据集，而文本易读性评估框架的稳健性得到了验证。

Jun, 2023

基于 CEFR 的句子难度标注与评估

本文提出一种基于 CEFR 的句子评估语料库，包含了 17k 个被英语教育专业人员划分难度级别的英文句子，同时我们提出了一个句子级评估模型来解决级别分布不平衡的问题，并在实验中达到了 84.5% 的高水平。

Oct, 2022

面向大规模多领域多语言可读性评估

本文介绍了 ReadMe++，这是一种用于自动可读性评估的大规模多领域多语言数据集，提供了手动标注的 6,330 个句子，涵盖了阿拉伯语、英语和印地语等几种语言，采用了句子级别的注释方法，并使用了 CEFR 和 Rank-and-Rate 注释框架来减少注释主观性。试验结果显示，使用 ReadMe++ 微调的模型具有强大的跨语言传递能力和对未知领域的泛化能力。

May, 2023

可读性评估的语言特征

本文旨在通过将语言学特征与深度学习模型相结合，评估阅读难度，发现在足够的训练数据下，使用语言学特征并不能提高深度学习模型的性能。

May, 2020

探索土耳其文本可读性的语言特征

本文利用最先进的神经网络模型和语言特征，对土耳其文本进行自动易读性评估，比较了传统易读公式和现代自动方法的有效性，并确定了影响土耳其文本易读性的关键语言特征。

Jun, 2023

一个用于评分维基百科可读性的开放多语言系统

通过构建多语言模型评价维基百科文章的可读性，作者展示了该模型在 14 种语言中的零样本情况下的 80% 以上的排名准确率，并且提供了维基百科的可读性状况的第一个概述。

Jun, 2024