- 哈亚姆离线波斯手写数据集
Khayyam dataset is an extensive collection of handwriting samples in the Persian language, specifically focused on rare - Khayyam 挑战(波斯 MMLU):你的 LLM 是否真的掌握了波斯语?
评估大型语言模型的挑战在于它们的生成性质,不仅需要精确的评估方法,同时还需要针对非英语语言的评估方法,为许多语言缺乏或薄弱的语言模型所提供支持。为了满足这一需求,我们介绍了哈亚姆挑战(也称波斯 MMLU),这是一个精心策划的集合,包含了 2 - OPSD:一种冒犯性波斯社交媒体数据集及其基准评估
该研究介绍了两个针对恶意评论和冒犯性言论的数据集,并使用先进的语言模型和机器学习算法进行了实验,以建立该数据集的基准,结果表明 XLM-RoBERTa 在该数据集上的 F1 分数分别为 76.9% 和 89.9%。
- 基于深度学习的波斯语情感分析
我们引入和实现了一个基于混合深度学习的模型,用于对 Digikala Online 零售网站的客户评论数据进行情感分析,采用了多种深度学习网络和正则化技术作为分类器。最终,我们的混合方法在三个情感类别(积极,消极,中立)上实现了出色的性能, - 波斯文本流主题检测中频繁模式挖掘和聚类类别的全面研究
本研究旨在研究波斯语下的主题检测,通过对现有算法进行深入研究、波斯语的适应性改进,以及在波斯语社交网络文本上的性能评估,发现具备良好表现的算法类别为混合类别,对于易于理解的关键词主题搜索,而频繁模式类别则更适合用于进一步分析的帖子聚类。
- 波斯俚语文本转换为正式文本,并在社交媒体上进行波斯简短文本的深度学习以进行情感分类
使用 Persian Slang Converter (PSC) 工具和最新的深度学习方法,本研究旨在为机器提供转换会话文本为正式文本的工具。通过训练无监督模型和正式实施,从各种社交网络和电影字幕中获得超过 1000 万的未标记文本和 10 - 波斯语 LLaMA: 迈向建立首个波斯语大型语言模型
本研究介绍了第一个大型波斯语语言模型 PersianLLaMA,在波斯文本和数据集上训练,通过最新的评估方法在波斯文本的生成和理解任务中表现出色,对于发展波斯语自然语言处理,特别是文本生成方面如聊天机器人、问答、机器翻译和文本摘要等任务可作 - KhabarChin:波斯语重要新闻的自动检测
通过自然语言处理技术,本论文介绍了在波斯语中探测重要新闻的新型基准数据集(Khabarchin),并提出了解决此任务的多个基于学习的模型,从传统机器学习到最先进的 Transformer 模型,同时还介绍了在新闻文章中通过弱监督方式识别重要 - 构建波斯语社交微博情感分析的口语数据集
该研究提出了一种新的深度卷积神经网络模型以更有效地进行社交微博帖子中的口语文本情感分析,采用构建用户意见数据集,并使用不同的单词嵌入进行了评估,结果表明该模型具有 72%的准确性和有效性。
- 使用迁移学习和基于 BERT 模型的方法对波斯语语义角色进行标注
本研究提出了一种端到端的 SRL 方法,它不仅消除了特征提取的需要,而且在实际情况下面对新样本的时候也表现出优于现有方法 16% (83.16) 的准确性改进。
- 使用算法生成的错拼词在多对多深度神经网络上检测波斯语排版错误类型
本研究针对波斯语(Persian)的排版错误类型检测展开研究,构建了一套公开数据集 FarsTypo,使用神经网络结合 Word 和 Character Embeddings 进行分类,获得了 97.62% 的准确率,98.83% 的精确度 - IslamicPCQA: 伊斯兰文本资源中用于波斯语多跳复杂问答的数据集
本文介绍了 IslamicPCQA 数据集,它是第一个基于非结构化信息源用于回答复杂波斯语问题的数据集,旨在提供复杂波斯语问题的解答,需要多一段文章的推理,并包括支持事实和关键句子来提供强大的推理能力。
- ArmanTTS 波斯语单说话人数据集
本文介绍了单人发音数据集 ArmanTTS,通过对比各种普遍数据集的特征,证明了 ArmanTTS 是教授波斯文本到语音转换模型所必需的标准。我们结合 Tacotron 2 和 HiFi GAN 设计了一个模型,可以接收音素作为输入,输出是 - 基于人类词关联和图嵌入的波斯语主题检测
本文提出了一种基于人类单词联想的社交媒体主题检测框架,该框架使用人类单词联想方法,通过词语的联想力计算关联力生成相关性图,进而通过聚类方法提取主题,该方法在波斯语数据集上的实验结果表明,它比其他主题检测方法更有效。
- 一种混合实体中心方法用于波斯语代词消解
本文提出了一种混合模型,通过将多个基于规则的筛子与针对代词的机器学习筛子相结合,解决了代词消解的挑战。该方法在 400 个文档的波斯语语言语料库中蕴含着出色的性能,并通过与先前模型的比较证明了其有效性。
- 波斯语情感分析:算法、方法和数据集综述
本文回顾近年来关于波斯语情感分析的文章,分析了 40 种方法,包括使用机器学习和深度学习的转换器和神经网络,评估了这些方法对数据集的准确性,列出了 2018 至 2022 年的数据集和其详细信息。
- 针对波斯语单词间关系的多模块 G2P 转换器
本研究探讨了针对波斯语的 G2P 转换的端到端和多模块框架的应用,结果表明,我们的多模块 G2P 系统在准确性和速度方面优于我们的端到端系统。该系统采用发音字典作为我们的查找表,并使用 GRU 和 Transformer 架构创建用于处理 - 数据增强改善波斯语关系抽取模型
本文介绍了我们对波斯语 RELATION EXTRACTION 数据集的预处理和增强,以及在 NSURL 2021 研讨会上参加的波斯语关系抽取共享任务中,基于 ParsBERT 和多语言 BERT 的两种模型在增强的 PERLEX 数据集 - 评估波斯语分词器
此研究比较了波斯语最广泛使用的标记工具的性能,并使用预先标记的波斯语依赖数据集进行了评估,得出结论表明修复构词的 Farsi Verb 和 Hazm 混合版本的表现最佳,达到 98.97% 的 F1 得分。
- 基于隐式众包数据采集的波斯语释义数据集
本文介绍了 PerPaDa,这是一个从用户输入中收集的波斯语近义词语料库,旨在帮助检测抄袭。该语料库包含 2446 个波斯语句子的大量近义词和原句,使用了一些启发式方法来排除不符合标准的句子,相对于类似数据集,该数据集更大且更无偏见。