本文旨在通过将语言学特征与深度学习模型相结合,评估阅读难度,发现在足够的训练数据下,使用语言学特征并不能提高深度学习模型的性能。
May, 2020
本文提出了第一次尝试仅依赖于未标记文本语料库进行无监督神经文本简化的核心框架,由共享编码器和一对注意解码器组成,并通过基于鉴别和去噪的损失进行简化知识的获取,并使用从 en-Wikipedia 转储的未标记文本进行训练。我们在公共测试数据上进行的分析(包括定量和定性的人类评估)表明,所提出的模型可以在词汇和句法两个级别上进行文本简化,竞争现有的监督方法。此外,增加几个标记的对也进一步提高了性能。
Oct, 2018
本文提出了一种基于自注意力模型的新的综合框架,用于分析文档易读性,并在多个基准数据集上证明该方法在估计各种网络文章和文学阅读易读性方面的表现优于现有的基线方法。
Mar, 2021
本文提出了第一个基于神经网络的排名方法来评估文本的自动易读性。我们将其与现有的分类,回归和排名方法进行了比较,并用五个数据集进行了实验,证明我们的方法适用于单语和跨语料测试,实现了针对英文数据训练的跨语易读度评估的零 - shot 学习,同时提供了英语和法语的新双语易读度数据集。
Mar, 2022
本文采用预训练的 seq2seq 模型对可读性进行评估,并通过测试不同的输入输出格式 / 前缀来提高模型性能,在 Newsela 和 OneStopEnglish 上实现 99.6% 和 98.7% 的成对分类精度。
Feb, 2023
本研究基于迁移学习提出了一种新的德文文本复杂度评估模型,结果表明该模型优于传统的基于文本语言特征提取的解决方案,最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。
Jul, 2022
本文提出了一种弱监督文本分类方法,其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块,具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点,并在三个真实数据集上进行了广泛的实验,结果表明其大幅优于基准方法而不需要过多的训练数据。
Sep, 2018
本文提出了一种基于 BERT 模型的阅读难度评估方法,利用困难程度知识指导半监督学习从而补充传统语言学特征,提出投影过滤和长度平衡损失来补充 BERT 表示,并在两个英文基准数据集和一组中文教科书数据集上取得了最先进的性能,远超人类专家。
Oct, 2022
本文利用最先进的神经网络模型和语言特征,对土耳其文本进行自动易读性评估,比较了传统易读公式和现代自动方法的有效性,并确定了影响土耳其文本易读性的关键语言特征。
Jun, 2023
本文提出了一种弱监督的神经方法进行层次文本分类,通过生成伪文档进行模型预训练,并在真实无标签数据上进行自我训练,最终得到高效准确的分类模型。
Dec, 2018