制定一部波斯语非正式 - 正式语料库
探讨波斯语(Persian)的正式形式和非正式形式之间的音韵、形态和句法区别,提出正式形式的树库在计算模型转换到非正式形式表现糟糕的问题,并开发了基于通用依赖理论的非正式波斯语树库,研究表明现有依赖树库训练的依存分析器在跨越两个领域时表现不佳,而非正式形式的语言的独特特征更容易出现错误。
Jan, 2022
使用 Persian Slang Converter (PSC) 工具和最新的深度学习方法,本研究旨在为机器提供转换会话文本为正式文本的工具。通过训练无监督模型和正式实施,从各种社交网络和电影字幕中获得超过 1000 万的未标记文本和 1000 万新闻文本,还使用来自 Instagram 社交网络用户评论的正面、负面和中性标签的 60000 条文本训练短文本情感分类模型,最终在测试数据上达到了 81.91% 的准确率。
Mar, 2024
研究探索了波斯语的形式风格转换,旨在将非正式的文本转化为正式的文本,保持原始含义,并改善了现有自然语言处理工具在数字平台上普遍存在的非正式语言问题。通过引入一种新的模型 Fa-BERT2BERT,基于 Fa-BERT 架构,结合一致性学习和基于梯度的动态权重,增强模型对语法变化的理解,平衡损失部分,并通过新的度量标准对该模型与传统方法进行了评估,结果表明其在多个指标上的卓越性能,包括 BLEU、BERT 分数、Rouge-l 和突出表现了其在波斯语风格转换复杂性方面的能力。该研究通过提高 NLP 模型的准确性和功能性,显著贡献于波斯语的处理并支持更高效可靠的 NLP 应用程序的发展,能够有效处理语言风格转换,从而简化内容的管理,增强数据挖掘结果,促进跨文化交流。
Jun, 2024
使用双向方法从英语和波斯文档的维基百科中提取平行句子,使用机器翻译系统将波斯文翻译成英文,反之亦然,然后使用 IR 系统测量翻译后句子的相似度,并将提取的句子加入现有 SMT 系统的训练数据,以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子,已按其相似度由 IR 系统计算排序,并可在 Web 上免费访问。
Nov, 2017
这篇论文介绍了一个面向口语波斯文的新语料库 CPPOS,通过使用该语料库进行训练,利用深度学习模型在波斯文的 POS 标注任务中取得比现有数据集和工具更好的性能,相较之前的数据集的改进达到了 14%。
Oct, 2023
本文介绍了采集自文学杰作的超过一百万句子对的最大波斯语 - 英语平行语料库,包括其获取过程和统计信息,并使用该语料库对基础统计机器翻译系统进行实验。
Jan, 2018
该研究提出了一种新的深度卷积神经网络模型以更有效地进行社交微博帖子中的口语文本情感分析,采用构建用户意见数据集,并使用不同的单词嵌入进行了评估,结果表明该模型具有 72%的准确性和有效性。
Jun, 2023
研究探索了在使用机器学习方法将英语翻译成带有形式化特征语言时,如何解决形式化信息缺失的问题,通过使用印地语作为示例数据,在形式化受控环境中训练双语模型,并与预训练的多语言模型在类似环境中的性能进行比较。主要建模方法是利用转换器模型,通过比较预测的被标记词与期望输出的实际词的准确度(ACC)来评估正式性准确性。这项研究展示了一种灵活的翻译策略,考虑了目标语言中形式化的细微差别,迎合了多样化的语言交流需求和场景。
Nov, 2023
通过利用人工智能的力量,我们提出了一个框架,将高资源语言的内容本土化到低资源的语言 / 方言,以丰富资源不足的阿拉伯方言并加快地跨智能城市之间的多样的在线社交行为研究。同时,我们的实验结果证明了我们提出的解决方案在高低资源语言和方言之间的资源利用能力,以及忽视相同语言内的方言可能导致对在线社交行为的误导分析。
Dec, 2023
本论文提出了将已有的波斯语语料库转用于库尔德语的词性标注。可用于库尔德语的标注语料库现阶段非常缺乏,本方法可以利用相关资源可以帮助开发自动库尔德语标注以及 Kurdish dialect 的词性标注词典。
Jan, 2022