显微镜下:菲律宾可读性评估模型的解读
本研究基于迁移学习提出了一种新的德文文本复杂度评估模型,结果表明该模型优于传统的基于文本语言特征提取的解决方案,最佳模型使用 BERT 预训练语言模型取得了 0.483 的均方根误差。
Jul, 2022
该研究针对非英语母语者阅读理解评估的不足,提出了一种利用一般化方法和自学习技术,借助母语数据提高 L2 数据系统表现的模型,并在学习者文本的可读性评估方面取得了精度为 0.797 和相关系数为 0.938 的结果。
Jun, 2019
本文提出使用交叉语言相似性和新特征 CrossNGO,探索手工特性与机器学习模型相交互的自动易读性评估方法,以改善低资源语言的精度。在使用菲律宾三种语言的短篇小说训练模型的过程中发现,使用新特征 CrossNGO 可显著提高交叉语言易读性模型的性能,其中结合语言表示的使用可出现各自语言的最佳结果。
May, 2023
本文提出了一种基于自注意力模型的新的综合框架,用于分析文档易读性,并在多个基准数据集上证明该方法在估计各种网络文章和文学阅读易读性方面的表现优于现有的基线方法。
Mar, 2021
本文利用最先进的神经网络模型和语言特征,对土耳其文本进行自动易读性评估,比较了传统易读公式和现代自动方法的有效性,并确定了影响土耳其文本易读性的关键语言特征。
Jun, 2023
对各种语言模型在书写故事补充和简化叙述等生成任务中根据标准的提示控制文本可读性进行性能调查的研究结果表明,ChatGPT 等全球认可的模型可能相对不够有效,需要更精细的提示,而像 BLOOMZ 和 FlanT5 这样的开放源码模型则显示出有希望的结果。
Sep, 2023
该研究提出了一系列新颖的神经监督和无监督方法来确定文档的易读性。通过在多个基准和新标记的易读性数据集上系统比较几种神经体系结构,提供了不同神经方法进行易读性分类的综合分析,并展示了它们的优缺点。
Jul, 2019
本论文针对菲律宾第二大母语 —— 宿务语,开发了首个基线可读性模型;本文提取了传统或基于表面的特征、基于 Cebuano 拼字书写的音节模式以及多语言 BERT 模型的神经嵌入。结果显示,使用前两个手工语言特征的随机森林模型训练表现最佳,并且使用的特征集和算法类似于以前为菲律宾语可读性评估所获得的结果,表明具有跨语言应用的潜力;为了鼓励在菲律宾诸如宿务语等语言的可读性评估方面进行更多工作,我们公开了代码和数据。
Mar, 2022
本文提出了一种基于 BERT 模型的阅读难度评估方法,利用困难程度知识指导半监督学习从而补充传统语言学特征,提出投影过滤和长度平衡损失来补充 BERT 表示,并在两个英文基准数据集和一组中文教科书数据集上取得了最先进的性能,远超人类专家。
Oct, 2022