一种融合特征投影和长度平衡损失的可读性评估神经网络模型

Oct, 2022

一种融合特征投影和长度平衡损失的可读性评估神经网络模型

A Unified Neural Network Model for Readability Assessment with Feature Projection and Length-Balanced Loss

Wenbiao Li, Ziyang Wang, Yunfang Wu

TL;DR本文提出了一种基于 BERT 模型的阅读难度评估方法，利用困难程度知识指导半监督学习从而补充传统语言学特征，提出投影过滤和长度平衡损失来补充 BERT 表示，并在两个英文基准数据集和一组中文教科书数据集上取得了最先进的性能，远超人类专家。

Abstract

For readability assessment, traditional methods mainly employ machine learning classifiers with hundreds of linguistic features. Although the deep learning model has become the prominent approach for almost all NLP tasks, it is less explored for →

readability assessment deep learning bert semi-supervised learning length-balanced loss

发现论文，激发创造

可读性评估的语言特征

本文旨在通过将语言学特征与深度学习模型相结合，评估阅读难度，发现在足够的训练数据下，使用语言学特征并不能提高深度学习模型的性能。

May, 2020

基于迁移学习的德语文本可读性评估模型

本研究基于迁移学习提出了一种新的德文文本复杂度评估模型，结果表明该模型优于传统的基于文本语言特征提取的解决方案，最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。

Jul, 2022

文本可读性评估：变形金刚与手工语言特征的结合

本文介绍了两个优化可读性评估的方法：1. 引入三个新的高级语义特征 2. 明确传统的 ML 模型（如随机森林）可以与 transformers（如 RoBERTa）结合来提高模型性能，通过使用自行开发的特征提取软件提取 255 个特征并构建了几个混合模型，在流行的可读性评估数据集上实现了最先进的准确性。其中手工制作的特征有助于提高小型数据集的模型性能。值得注意的是，我们的 RoBERTA-RF-T1 混合模型实现了近乎完美的 99％分类精度，比之前最先进的模型提高了 20.3％。

Sep, 2021

一种基于多模型的深度学习框架，用于处理不平衡和非常小的数据集进行短文本多分类

本文提出了一种基于多模态的深度学习框架，用于短文本多类别分类，针对于极小数据集，使用了 DISTILBERT 来获取上下文敏感的动态词向量，并取得了在精度、召回率、准确率和 F1 分数上与现有最优方法相同的性能，同时模型体积更小，可以在移动设备上更快、更轻地部署。

Jun, 2022

利用相关图学习句法密集嵌入以进行自动可读性评估

本研究提出了一种在神经网络模型中加入语言特征的方法，通过学习基于语言特征的句法密集嵌入，在语言特征间建立相关性图并利用其来学习嵌入来解决特征间的关系，实验证明该方法显著提高了自动易读性评估的性能，能够与 BERT 仅有模型相辅相成。

Jul, 2021

文本可读性的有监督和无监督神经方法

该研究提出了一系列新颖的神经监督和无监督方法来确定文档的易读性。通过在多个基准和新标记的易读性数据集上系统比较几种神经体系结构，提供了不同神经方法进行易读性分类的综合分析，并展示了它们的优缺点。

Jul, 2019

特徵工程的死亡？BERT 搭配 SQuAD 2.0 的語言特徵

我们开发了一个整合了 BERT 和其他语言特征的端到端问题回答模型，结果表明这种模型能够改善 BERT 基础模型，EM 得分和 F1 得分分别提高了 2.17 和 2.14。我们的最佳单一模型在隐藏测试集上达到了 EM 得分 76.55 和 F1 得分 79.97。我们的错误分析还表明，语言结构可以帮助模型更好地理解上下文，从而纠正 BERT 模型将答案错误预测为 “无答案” 的情况。

Apr, 2024

NU HLT 参加 CMCL 2022 共享任务：通用语言空间中多语和跨语人类阅读行为预测

本文提出了一种适用于各种语言中单词阅读时间的多语言和跨语言预测的统一模型。通过使用国际音标将单词转换为通用语言表示，该模型的预处理步骤是成功的关键。该模型从基本频率、n-gram、信息论和心理语言学启发的预测变量中提取了各种特征，随后使用随机森林模型进行训练，实现了最佳表现。

Feb, 2022

利用预训练语言模型进行低资源摘要

利用自注意力变换器模型（mBERT, mT5）以及构建新的基准数据集（76.5k 的文章摘要对），在资源有限的语言乌尔都语中，提出了一个自适应低资源摘要方法，能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。

Oct, 2023

利用心理语言学特征和 Transformer 提升基于文本的情感检测的泛化能力

本文采用基于转换器模型和双向 LSTM 网络的方法，结合心理语言学特征进行基于文本的情感检测，在两个基准数据集中表现出可比性，在六个统一情感数据集的迁移学习实验中表现出强大的跨领域泛化功能。

Dec, 2022