评估波斯语分词器

Feb, 2022

Evaluating Persian Tokenizers

Danial Kamali, Behrooz Janfada, Mohammad Ebrahim Shenasa, Behrouz Minaei-Bidgoli

TL;DR此研究比较了波斯语最广泛使用的标记工具的性能，并使用预先标记的波斯语依赖数据集进行了评估，得出结论表明修复构词的 Farsi Verb 和 Hazm 混合版本的表现最佳，达到 98.97% 的 F1 得分。

Abstract

tokenization plays a significant role in the process of lexical analysis. Tokens become the input for other natural language processing tasks, like semantic parsing and language modeling. →

tokenization persian language natural language processing tokenizer comparison morphemes fixing

发现论文，激发创造

对增强的阿拉伯语语言模型的分词策略和词汇量进行探索

本研究通过考察不同的分词策略和词汇量对阿拉伯语言模型在自然语言处理任务中的表现影响，全面探究了其对新闻分类、仇恨言论检测、情感分析和自然语言推理等多个任务的有效性。结果显示，Farasa 的字节对编码 (BPE) 在多个任务中表现优于其他策略，突显了形态分析在捕捉阿拉伯语言细微差异方面的重要性。然而，在情感分析中存在方言特定的分割问题，影响模型效率。计算效率分析验证了 Farasa 的 BPE 的稳定性，表明其实际可行性。研究发现，词汇量对模型性能的影响有限，在不改变模型大小的前提下。这挑战了关于词汇量、模型大小和下游任务关系的既有信念，强调了对模型大小及其对应词汇量进行研究以在不同领域泛化和减少偏差的重要性，尤其是在基于方言的数据集中。本文建议改进分词策略以解决方言挑战，增强模型在不同语境中的鲁棒性，并扩大数据集以涵盖丰富的基于方言的阿拉伯语言。这项研究不仅推进了对阿拉伯语言模型的理解，而且为针对阿拉伯语言的复杂性定制的自然语言处理技术的负责和道德性发展奠定了基础。

Mar, 2024

令牌化对语言模型的影响：针对土耳其语的分析

本文研究了在土耳其语 (OSCAR corpus) 的分裂数据上，比较了不同粒度级别的分词器的性能和预训练语言模型的效果，并发现单独定制的分子级别分词器具有挑战性的表现，同时也发现增加词汇量可以提高单独定制的分子级别分词器以及使用 RoBERTa 预训练的中型语言模型的性能。

Apr, 2022

波斯语情感分析：算法、方法和数据集综述

本文回顾近年来关于波斯语情感分析的文章，分析了 40 种方法，包括使用机器学习和深度学习的转换器和神经网络，评估了这些方法对数据集的准确性，列出了 2018 至 2022 年的数据集和其详细信息。

Nov, 2022

使用 Transformers 评估波斯语 - 英语机器翻译数据集

本研究基于最受欢迎和有价值的平行语料库，将两种最先进的基于注意力的 seq2seq 模型应用于波斯语 - 英语机器翻译任务，旨在为研究人员提供标准基准，以评估其翻译结果。

Feb, 2023

脚本连续语言中不同的分词器在下游任务中的表现？：以日语为例的案例研究

本文旨在研究分词器对预训练语言模型在 scriptio continua 语言（如日语）下游性能的影响，结果表明对于任何类型的任务，使用 Byte-Pair-Encoding 或 Unigram 作为子词分割器都比 WordPiece 更佳，并且每个下游任务都有一个不同的最佳形态分析器。

Jun, 2023

多语言语言建模中的分词影响：评估跨语言词汇分配和重叠

本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度，并发现跨语言单词表的重叠实际上可能对某些下游任务（如 POS、依赖树标记）产生负面影响，而在命名实体识别和句子级任务（如跨语言检索、NLI）中分享词汇表是有益的。此外，本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此，我们为未来的模型开发人员提供了详细的指导，以选择最适合他们特定应用程序的符号化器。

May, 2023

基于深度学习的波斯语情感分析

我们引入和实现了一个基于混合深度学习的模型，用于对 Digikala Online 零售网站的客户评论数据进行情感分析，采用了多种深度学习网络和正则化技术作为分类器。最终，我们的混合方法在三个情感类别（积极，消极，中立）上实现了出色的性能，F1 分数达到了 78.3。

Mar, 2024

评估用于分析波斯广告数据的 BERT 和 ParsBERT

这篇论文探讨了互联网对现代交易的影响，以及从这些交易产生的数据对组织改善其市场营销努力的重要性。本文以伊朗的在线购买和销售产品和服务的市场 Divar 为例，并介绍了一个竞赛来预测在 Divar 网站上发布的汽车销售广告的百分比。作者在伊朗的低资源语言的背景下，使用了两种先进的语言模型，mBERT 和 ParsBERT，对这些数据进行了分析，提供了两种方法的性能比较，还详细介绍数据挖掘过程和机器学习问题类型和模式评估技术。

May, 2023

ParsBERT：基于 Transformer 的波斯语语言理解模型

本文提出了一种用于波斯语的单语 BERT 模型（ParsBERT），并采用庞大的数据集进行预训练和各种自然语言处理任务，证明该模型相对于其他结构和多语言模型具有更好的性能。

May, 2020

使用另一种语言进行低资源语言的词性标记（使用标记的波斯语 (Farsi) 语料库为库尔德语 (Sorani) 开发了一个 POS 标记化词典）

本论文提出了将已有的波斯语语料库转用于库尔德语的词性标注。可用于库尔德语的标注语料库现阶段非常缺乏，本方法可以利用相关资源可以帮助开发自动库尔德语标注以及 Kurdish dialect 的词性标注词典。

Jan, 2022