文本可读性评估：变形金刚与手工语言特征的结合

Sep, 2021

文本可读性评估：变形金刚与手工语言特征的结合

Pushing on Text Readability Assessment: A Transformer Meets Handcrafted Linguistic Features

Bruce W. Lee, Yoo Sung Jang, Jason Hyung-Jong Lee

TL;DR本文介绍了两个优化可读性评估的方法：1. 引入三个新的高级语义特征 2. 明确传统的 ML 模型（如随机森林）可以与 transformers（如 RoBERTa）结合来提高模型性能，通过使用自行开发的特征提取软件提取 255 个特征并构建了几个混合模型，在流行的可读性评估数据集上实现了最先进的准确性。其中手工制作的特征有助于提高小型数据集的模型性能。值得注意的是，我们的 RoBERTA-RF-T1 混合模型实现了近乎完美的 99％分类精度，比之前最先进的模型提高了 20.3％。

Abstract

We report two essential improvements in readability assessment: 1. three novel features in advanced semantics and 2. the timely evidence that traditional →

readability assessment semantics ml models handcrafted features hybrid models

发现论文，激发创造

可读性评估的语言特征

本文旨在通过将语言学特征与深度学习模型相结合，评估阅读难度，发现在足够的训练数据下，使用语言学特征并不能提高深度学习模型的性能。

May, 2020

使用 Transformer 集合自动评估德语句子的可读性

本文讨论了使用深度学习方法和语言学特征分析混合模型提高德语句子阅读理解测评的可靠性，最终团队使用的混合模型表现更好。

Sep, 2022

一种融合特征投影和长度平衡损失的可读性评估神经网络模型

本文提出了一种基于 BERT 模型的阅读难度评估方法，利用困难程度知识指导半监督学习从而补充传统语言学特征，提出投影过滤和长度平衡损失来补充 BERT 表示，并在两个英文基准数据集和一组中文教科书数据集上取得了最先进的性能，远超人类专家。

Oct, 2022

运用人工智能进行现场测试：使用变压器的自然语言处理

RoBERTa 模型的五千个变体通过 29 道选择题完成了一项英语读写能力考试，利用数据计算了这些考题的心理测量性质，结果显示它们在某种程度上与人类考生数据获得的结果相符。

Oct, 2023

基于迁移学习的德语文本可读性评估模型

本研究基于迁移学习提出了一种新的德文文本复杂度评估模型，结果表明该模型优于传统的基于文本语言特征提取的解决方案，最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。

Jul, 2022

评估序列标注中手工特征的效用

通过自动化手工特征抽取方法，将手工特征与深度学习方法相结合，可以显著提高命名实体识别任务的性能并减少训练需求。

Aug, 2018

利用心理语言学特征和 Transformer 提升基于文本的情感检测的泛化能力

本文采用基于转换器模型和双向 LSTM 网络的方法，结合心理语言学特征进行基于文本的情感检测，在两个基准数据集中表现出可比性，在六个统一情感数据集的迁移学习实验中表现出强大的跨领域泛化功能。

Dec, 2022

特徵工程的死亡？BERT 搭配 SQuAD 2.0 的語言特徵

我们开发了一个整合了 BERT 和其他语言特征的端到端问题回答模型，结果表明这种模型能够改善 BERT 基础模型，EM 得分和 F1 得分分别提高了 2.17 和 2.14。我们的最佳单一模型在隐藏测试集上达到了 EM 得分 76.55 和 F1 得分 79.97。我们的错误分析还表明，语言结构可以帮助模型更好地理解上下文，从而纠正 BERT 模型将答案错误预测为 “无答案” 的情况。

Apr, 2024

探索土耳其文本可读性的语言特征

本文利用最先进的神经网络模型和语言特征，对土耳其文本进行自动易读性评估，比较了传统易读公式和现代自动方法的有效性，并确定了影响土耳其文本易读性的关键语言特征。

Jun, 2023

使用 Transformer 语言模型对社会政治文本进行零样本排序以减少读取时间

使用基于 Transformer 的 DeBERTa 模型将分类问题转化为蕴含问题，使得排名最高的文档可以被视为正分类文档，从而缩短信息抽取过程中的阅读时间，并发现一定的召回率下，使用声明性形式的类别标签作为查询可以优于使用字典定义的类别标签。同时研究表明，随着主题范围的扩大，应阅读的文档百分比会增加。

Oct, 2022