评估波斯语分词器
本研究通过考察不同的分词策略和词汇量对阿拉伯语言模型在自然语言处理任务中的表现影响,全面探究了其对新闻分类、仇恨言论检测、情感分析和自然语言推理等多个任务的有效性。结果显示,Farasa 的字节对编码 (BPE) 在多个任务中表现优于其他策略,突显了形态分析在捕捉阿拉伯语言细微差异方面的重要性。然而,在情感分析中存在方言特定的分割问题,影响模型效率。计算效率分析验证了 Farasa 的 BPE 的稳定性,表明其实际可行性。研究发现,词汇量对模型性能的影响有限,在不改变模型大小的前提下。这挑战了关于词汇量、模型大小和下游任务关系的既有信念,强调了对模型大小及其对应词汇量进行研究以在不同领域泛化和减少偏差的重要性,尤其是在基于方言的数据集中。本文建议改进分词策略以解决方言挑战,增强模型在不同语境中的鲁棒性,并扩大数据集以涵盖丰富的基于方言的阿拉伯语言。这项研究不仅推进了对阿拉伯语言模型的理解,而且为针对阿拉伯语言的复杂性定制的自然语言处理技术的负责和道德性发展奠定了基础。
Mar, 2024
本文研究了在土耳其语 (OSCAR corpus) 的分裂数据上,比较了不同粒度级别的分词器的性能和预训练语言模型的效果,并发现单独定制的分子级别分词器具有挑战性的表现,同时也发现增加词汇量可以提高单独定制的分子级别分词器以及使用 RoBERTa 预训练的中型语言模型的性能。
Apr, 2022
本文回顾近年来关于波斯语情感分析的文章,分析了 40 种方法,包括使用机器学习和深度学习的转换器和神经网络,评估了这些方法对数据集的准确性,列出了 2018 至 2022 年的数据集和其详细信息。
Nov, 2022
本研究基于最受欢迎和有价值的平行语料库,将两种最先进的基于注意力的 seq2seq 模型应用于波斯语 - 英语机器翻译任务,旨在为研究人员提供标准基准,以评估其翻译结果。
Feb, 2023
本文旨在研究分词器对预训练语言模型在 scriptio continua 语言(如日语)下游性能的影响,结果表明对于任何类型的任务,使用 Byte-Pair-Encoding 或 Unigram 作为子词分割器都比 WordPiece 更佳,并且每个下游任务都有一个不同的最佳形态分析器。
Jun, 2023
本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度,并发现跨语言单词表的重叠实际上可能对某些下游任务(如 POS、依赖树标记)产生负面影响,而在命名实体识别和句子级任务(如跨语言检索、NLI)中分享词汇表是有益的。此外,本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此,我们为未来的模型开发人员提供了详细的指导,以选择最适合他们特定应用程序的符号化器。
May, 2023
我们引入和实现了一个基于混合深度学习的模型,用于对 Digikala Online 零售网站的客户评论数据进行情感分析,采用了多种深度学习网络和正则化技术作为分类器。最终,我们的混合方法在三个情感类别(积极,消极,中立)上实现了出色的性能,F1 分数达到了 78.3。
Mar, 2024
这篇论文探讨了互联网对现代交易的影响,以及从这些交易产生的数据对组织改善其市场营销努力的重要性。本文以伊朗的在线购买和销售产品和服务的市场 Divar 为例,并介绍了一个竞赛来预测在 Divar 网站上发布的汽车销售广告的百分比。作者在伊朗的低资源语言的背景下,使用了两种先进的语言模型,mBERT 和 ParsBERT,对这些数据进行了分析,提供了两种方法的性能比较,还详细介绍数据挖掘过程和机器学习问题类型和模式评估技术。
May, 2023
本文提出了一种用于波斯语的单语 BERT 模型(ParsBERT),并采用庞大的数据集进行预训练和各种自然语言处理任务,证明该模型相对于其他结构和多语言模型具有更好的性能。
May, 2020
本论文提出了将已有的波斯语语料库转用于库尔德语的词性标注。可用于库尔德语的标注语料库现阶段非常缺乏,本方法可以利用相关资源可以帮助开发自动库尔德语标注以及 Kurdish dialect 的词性标注词典。
Jan, 2022