来自其他语言的专有名词音译的聚类
本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体,并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。
Apr, 2018
本文通过将当前最先进的名词实体翻译方案与转音符号结合,引入了一个新的机器翻译方法。作者通过构建多种基于统计规则的音节分隔规则,借助概率计算得到一个英语到旁遮普语的名词实体翻译与转音符翻译系统,通过调用统计机器翻译工具 MOSES 提高了翻译质量。
Oct, 2013
通过使用具有共享表示的多语言任务解决英文到特定语言品种的神经机器翻译时可能遇到的问题,并利用标签化和非标签化的平行语料库,以及低资源条件对欧洲巴西葡萄牙语、欧洲 - 加拿大法语、克罗地亚 - 塞尔维亚语以及印度尼西亚 - 马来语这四种语言进行实验。实验结果显示,使用共享表示的多语言方法能够显着提高翻译成相似语言的基线系统的 BLEU 分数。
Nov, 2018
本文提出了一种基于自然语言处理、机器学习和英乌尔都语转换的方法,以找出英语和乌尔都语新闻文章之间的相似性,并解决了在低资源语言下找到相似新闻文章的难题。
May, 2022
本研究提出了一种基于 N-Gram 与 Damerau Levenshtein 距离模型的自动规则抽取方法,这种模型利用少量的数据进行训练,实现了良好的性能,并且在没有足够数据时,传统的方法胜过复杂的深度学习模型。
Oct, 2022
本文介绍了一种通过将名称实体作为预处理步骤进行翻译 / 音译来提高神经机器翻译质量的方法,并进行了实验证明其性能提高。考虑了三种类型的名称实体,包括人名、地名和组织名。结果表明,该系统能够正确翻译大多数名称实体,其准确率为人名 99.86%,地名 99.63%,组织名 99.05%,总体准确率为 99.52%。
May, 2023
使用分布语义学,本文研究了英语名词复数形式的意义聚类,介绍了一种计算方法叫做 CosClassAvg,通过实验比较它与另一种方法 FRACSS 的差异,并验证了 CosClassAvg 方法在语义向量映射中的优越性
Mar, 2022
为了解决印地语交互下,由于语言间巨大的形态学复杂度而导致的低资源语言之间的翻译问题,本文提出了一种基于常见多语种拉丁编码的方法。使用这种方法,结合 Byte Pair Embedding,可以更好地利用印地语相似性,并通过将不同但相似的语言映射到同一正交 - 语音字符空间来改进翻译质量。在低资源条件下,我们验证了提出的方法,并且在大多数情况下得到了改进,在类似语言对(Gujarati-Hindi,Marathi-Hindi,Nepali-Hindi,Maithili - Hindi,Punjabi-Hindi 和 Urdu-Hindi)中,在一个案例中提高了约 10 BLEU 分数,而在远程和零 - shot 语言对中还提高了约 1 个 BLEU 分数。
May, 2023
试验展示了将来自其他语料库的真实文本与合成的正字法变异相结合以增强训练数据的益处,在情感分析方面效果提升了 2.1 分,英文翻译方面效果提升了 1.4 BLEU 分。
Apr, 2024
本文提出一种新的名词短语解析的概率模型,并介绍了将这种解析技术应用于增强文档索引的方法,实验结果表明,使用句法短语来辅助单词索引可以稳定且显著地提高检索性能。
Feb, 1997