来自其他语言的专有名词音译的聚类

Oct, 2023

来自其他语言的专有名词音译的聚类

Clustering of Spell Variations for Proper Nouns Transliterated from the other languages

Prathamesh Pawar

TL;DR通过使用机器学习技术和数学相似度方程，我们提出了一种针对专有名词的拼写变异进行聚类的方法，可以显著减少人工标注的工作量，从而降低了数据清洗和格式化的需求。

Abstract

One of the prominent problems with processing and operating on text data is the non uniformity of it. Due to the change in the dialects and languages, the caliber of translation is low. This creates a unique problem while using →

text data nlp spell variation proper nouns ml techniques

发现论文，激发创造

自动规范混合语言社交媒体文本中的单词变体

本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体，并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。

Apr, 2018

使用新的命名实体翻译方案改善 MT 输出的质量

本文通过将当前最先进的名词实体翻译方案与转音符号结合，引入了一个新的机器翻译方法。作者通过构建多种基于统计规则的音节分隔规则，借助概率计算得到一个英语到旁遮普语的名词实体翻译与转音符翻译系统，通过调用统计机器翻译工具 MOSES 提高了翻译质量。

Oct, 2013

神经机器翻译到语言变体

通过使用具有共享表示的多语言任务解决英文到特定语言品种的神经机器翻译时可能遇到的问题，并利用标签化和非标签化的平行语料库，以及低资源条件对欧洲巴西葡萄牙语、欧洲 - 加拿大法语、克罗地亚 - 塞尔维亚语以及印度尼西亚 - 马来语这四种语言进行实验。实验结果显示，使用共享表示的多语言方法能够显着提高翻译成相似语言的基线系统的 BLEU 分数。

Nov, 2018

利用机器学习在不同语言新闻文章中寻找相似性的转写词研究

本文提出了一种基于自然语言处理、机器学习和英乌尔都语转换的方法，以找出英语和乌尔都语新闻文章之间的相似性，并解决了在低资源语言下找到相似新闻文章的难题。

May, 2022

只有 400 个样本！重新审视自动生成拼音规则对菲律宾语拼写规范化的有效性

本研究提出了一种基于 N-Gram 与 Damerau Levenshtein 距离模型的自动规则抽取方法，这种模型利用少量的数据进行训练，实现了良好的性能，并且在没有足够数据时，传统的方法胜过复杂的深度学习模型。

Oct, 2022

通过正确翻译命名实体来提高神经机器翻译质量

本文介绍了一种通过将名称实体作为预处理步骤进行翻译 / 音译来提高神经机器翻译质量的方法，并进行了实验证明其性能提高。考虑了三种类型的名称实体，包括人名、地名和组织名。结果表明，该系统能够正确翻译大多数名称实体，其准确率为人名 99.86％，地名 99.63％，组织名 99.05％，总体准确率为 99.52％。

May, 2023

英语名词复数的语义属性：来自词向量的启示

使用分布语义学，本文研究了英语名词复数形式的意义聚类，介绍了一种计算方法叫做 CosClassAvg，通过实验比较它与另一种方法 FRACSS 的差异，并验证了 CosClassAvg 方法在语义向量映射中的优越性

Mar, 2022

使用通用编码将文本映射到相同的语音 - 正字空间中的机器翻译

为了解决印地语交互下，由于语言间巨大的形态学复杂度而导致的低资源语言之间的翻译问题，本文提出了一种基于常见多语种拉丁编码的方法。使用这种方法，结合 Byte Pair Embedding，可以更好地利用印地语相似性，并通过将不同但相似的语言映射到同一正交 - 语音字符空间来改进翻译质量。在低资源条件下，我们验证了提出的方法，并且在大多数情况下得到了改进，在类似语言对（Gujarati-Hindi，Marathi-Hindi，Nepali-Hindi，Maithili - Hindi，Punjabi-Hindi 和 Urdu-Hindi）中，在一个案例中提高了约 10 BLEU 分数，而在远程和零 - shot 语言对中还提高了约 1 个 BLEU 分数。

May, 2023

模型化正字变化提升尼日利亚商业英语的 NLP 性能

试验展示了将来自其他语料库的真实文本与合成的正字法变异相结合以增强训练数据的益处，在情感分析方面效果提升了 2.1 分，英文翻译方面效果提升了 1.4 BLEU 分。

Apr, 2024

用于文档索引的名词短语快速统计解析

本文提出一种新的名词短语解析的概率模型，并介绍了将这种解析技术应用于增强文档索引的方法，实验结果表明，使用句法短语来辅助单词索引可以稳定且显著地提高检索性能。

Feb, 1997