制定一部波斯语非正式 - 正式语料库

Aug, 2023

制定一部波斯语非正式 - 正式语料库

Developing an Informal-Formal Persian Corpus

Vahide Tajalli, Fateme Kalantari, Mehrnoush Shamsfard

TL;DR构建一个包含 50,000 个句对的并行语料库，用来提取波斯语非正式语言的规范文法和字词拼写变化。

Abstract

informal language is a style of spoken or written language frequently used in casual conversations, social media, weblogs, emails and text messages. In informal writing, the language faces some lexical and/or syntactic

informal language persian parallel corpus lexical changes syntactic changes

发现论文，激发创造

非正式波斯通用依存树库

探讨波斯语（Persian）的正式形式和非正式形式之间的音韵、形态和句法区别，提出正式形式的树库在计算模型转换到非正式形式表现糟糕的问题，并开发了基于通用依赖理论的非正式波斯语树库，研究表明现有依赖树库训练的依存分析器在跨越两个领域时表现不佳，而非正式形式的语言的独特特征更容易出现错误。

Jan, 2022

波斯俚语文本转换为正式文本，并在社交媒体上进行波斯简短文本的深度学习以进行情感分类

使用 Persian Slang Converter (PSC) 工具和最新的深度学习方法，本研究旨在为机器提供转换会话文本为正式文本的工具。通过训练无监督模型和正式实施，从各种社交网络和电影字幕中获得超过 1000 万的未标记文本和 1000 万新闻文本，还使用来自 Instagram 社交网络用户评论的正面、负面和中性标签的 60000 条文本训练短文本情感分类模型，最终在测试数据上达到了 81.91% 的准确率。

Mar, 2024

波斯语的正式风格转换

研究探索了波斯语的形式风格转换，旨在将非正式的文本转化为正式的文本，保持原始含义，并改善了现有自然语言处理工具在数字平台上普遍存在的非正式语言问题。通过引入一种新的模型 Fa-BERT2BERT，基于 Fa-BERT 架构，结合一致性学习和基于梯度的动态权重，增强模型对语法变化的理解，平衡损失部分，并通过新的度量标准对该模型与传统方法进行了评估，结果表明其在多个指标上的卓越性能，包括 BLEU、BERT 分数、Rouge-l 和突出表现了其在波斯语风格转换复杂性方面的能力。该研究通过提高 NLP 模型的准确性和功能性，显著贡献于波斯语的处理并支持更高效可靠的 NLP 应用程序的发展，能够有效处理语言风格转换，从而简化内容的管理，增强数据挖掘结果，促进跨文化交流。

Jun, 2024

从可比语料库中提取英波斯平行语料库

使用双向方法从英语和波斯文档的维基百科中提取平行句子，使用机器翻译系统将波斯文翻译成英文，反之亦然，然后使用 IR 系统测量翻译后句子的相似度，并将提取的句子加入现有 SMT 系统的训练数据，以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子，已按其相似度由 IR 系统计算排序，并可在 Web 上免费访问。

Nov, 2017

Colloquial Persian POS (CPPOS) Corpus：一份用于口语波斯语词性标注的新颖语料库

这篇论文介绍了一个面向口语波斯文的新语料库 CPPOS，通过使用该语料库进行训练，利用深度学习模型在波斯文的 POS 标注任务中取得比现有数据集和工具更好的性能，相较之前的数据集的改进达到了 14%。

Oct, 2023

MIZAN：波斯語 - 英語大型平行語料庫

本文介绍了采集自文学杰作的超过一百万句子对的最大波斯语 - 英语平行语料库，包括其获取过程和统计信息，并使用该语料库对基础统计机器翻译系统进行实验。

Jan, 2018

构建波斯语社交微博情感分析的口语数据集

该研究提出了一种新的深度卷积神经网络模型以更有效地进行社交微博帖子中的口语文本情感分析，采用构建用户意见数据集，并使用不同的单词嵌入进行了评估，结果表明该模型具有 72％的准确性和有效性。

Jun, 2023

用机器翻译控制目标语言的正式特征

研究探索了在使用机器学习方法将英语翻译成带有形式化特征语言时，如何解决形式化信息缺失的问题，通过使用印地语作为示例数据，在形式化受控环境中训练双语模型，并与预训练的多语言模型在类似环境中的性能进行比较。主要建模方法是利用转换器模型，通过比较预测的被标记词与期望输出的实际词的准确度（ACC）来评估正式性准确性。这项研究展示了一种灵活的翻译策略，考虑了目标语言中形式化的细微差别，迎合了多样化的语言交流需求和场景。

Nov, 2023

基于内容本地化的神经机器翻译系统：非正式方言阿拉伯语：西班牙语 / 法语到黎凡特 / 海湾阿拉伯语

通过利用人工智能的力量，我们提出了一个框架，将高资源语言的内容本土化到低资源的语言 / 方言，以丰富资源不足的阿拉伯方言并加快地跨智能城市之间的多样的在线社交行为研究。同时，我们的实验结果证明了我们提出的解决方案在高低资源语言和方言之间的资源利用能力，以及忽视相同语言内的方言可能导致对在线社交行为的误导分析。

Dec, 2023

使用另一种语言进行低资源语言的词性标记（使用标记的波斯语 (Farsi) 语料库为库尔德语 (Sorani) 开发了一个 POS 标记化词典）

本论文提出了将已有的波斯语语料库转用于库尔德语的词性标注。可用于库尔德语的标注语料库现阶段非常缺乏，本方法可以利用相关资源可以帮助开发自动库尔德语标注以及 Kurdish dialect 的词性标注词典。

Jan, 2022