文本可读性的有监督和无监督神经方法

Jul, 2019

文本可读性的有监督和无监督神经方法

Supervised and Unsupervised Neural Approaches to Text Readability

Matej Martinc, Senja Pollak, Marko Robnik-Šikonja

TL;DR该研究提出了一系列新颖的神经监督和无监督方法来确定文档的易读性。通过在多个基准和新标记的易读性数据集上系统比较几种神经体系结构，提供了不同神经方法进行易读性分类的综合分析，并展示了它们的优缺点。

Abstract

We present a set of novel neural supervised and unsupervised approaches for determining the readability of documents. In the unsupervised setting, we leverage neural language models, whereas in the supervised set

neural supervised and unsupervised readability determination neural language models neural classification architectures benchmark datasets

发现论文，激发创造

可读性评估的语言特征

本文旨在通过将语言学特征与深度学习模型相结合，评估阅读难度，发现在足够的训练数据下，使用语言学特征并不能提高深度学习模型的性能。

May, 2020

无监督神经文本简化

本文提出了第一次尝试仅依赖于未标记文本语料库进行无监督神经文本简化的核心框架，由共享编码器和一对注意解码器组成，并通过基于鉴别和去噪的损失进行简化知识的获取，并使用从 en-Wikipedia 转储的未标记文本进行训练。我们在公共测试数据上进行的分析（包括定量和定性的人类评估）表明，所提出的模型可以在词汇和句法两个级别上进行文本简化，竞争现有的监督方法。此外，增加几个标记的对也进一步提高了性能。

Oct, 2018

ReadNet: 用于 Web 文章可读性分析的分层 Transformer 框架

本文提出了一种基于自注意力模型的新的综合框架，用于分析文档易读性，并在多个基准数据集上证明该方法在估计各种网络文章和文学阅读易读性方面的表现优于现有的基线方法。

Mar, 2021

一个神经网络对比排序模型用于阅读可读性评估

本文提出了第一个基于神经网络的排名方法来评估文本的自动易读性。我们将其与现有的分类，回归和排名方法进行了比较，并用五个数据集进行了实验，证明我们的方法适用于单语和跨语料测试，实现了针对英文数据训练的跨语易读度评估的零 - shot 学习，同时提供了英语和法语的新双语易读度数据集。

Mar, 2022

基于提示的文本易读性评估学习

本文采用预训练的 seq2seq 模型对可读性进行评估，并通过测试不同的输入输出格式 / 前缀来提高模型性能，在 Newsela 和 OneStopEnglish 上实现 99.6% 和 98.7% 的成对分类精度。

Feb, 2023

基于迁移学习的德语文本可读性评估模型

本研究基于迁移学习提出了一种新的德文文本复杂度评估模型，结果表明该模型优于传统的基于文本语言特征提取的解决方案，最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。

Jul, 2022

弱监督神经文本分类

本文提出了一种弱监督文本分类方法，其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块，具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点，并在三个真实数据集上进行了广泛的实验，结果表明其大幅优于基准方法而不需要过多的训练数据。

Sep, 2018

一种融合特征投影和长度平衡损失的可读性评估神经网络模型

本文提出了一种基于 BERT 模型的阅读难度评估方法，利用困难程度知识指导半监督学习从而补充传统语言学特征，提出投影过滤和长度平衡损失来补充 BERT 表示，并在两个英文基准数据集和一组中文教科书数据集上取得了最先进的性能，远超人类专家。

Oct, 2022

探索土耳其文本可读性的语言特征

本文利用最先进的神经网络模型和语言特征，对土耳其文本进行自动易读性评估，比较了传统易读公式和现代自动方法的有效性，并确定了影响土耳其文本易读性的关键语言特征。

Jun, 2023

弱监督层次文本分类

本文提出了一种弱监督的神经方法进行层次文本分类，通过生成伪文档进行模型预训练，并在真实无标签数据上进行自我训练，最终得到高效准确的分类模型。

Dec, 2018