机器翻译用于生成命名实体数据集的潜力探索：波斯语和英语之间的案例研究

Feb, 2023

机器翻译用于生成命名实体数据集的潜力探索：波斯语和英语之间的案例研究

Exploring the Potential of Machine Translation for Generating Named Entity Datasets: A Case Study between Persian and English

PDF

Amir Sartipi, Afsaneh Fatemi

TL;DR通过将机器翻译应用于英语数据集，本研究聚焦于生成波斯语命名实体数据集。通过实验评估，最高的 F1 分数是 CoNLL 2003 数据集的 85.11％。本研究的结果强调了机器翻译在为低资源语言（如波斯语）创建高质量的命名实体识别数据集方面的潜力，并提供了有关机器翻译在此任务中有效性的见解。此外，此方法可用于增强低资源语言中的数据或创建嘈杂数据以使命名实体系统更加稳健并改进它们。

Abstract

This study focuses on the generation of Persian named entity datasets through the application of machine translation on English datasets. The generated datasets were evaluated by experimenting with one monolingua

named entity datasets machine translation f1 score low-resource languages named entity recognition systems

发现论文，激发创造

使用 Transformers 评估波斯语 - 英语机器翻译数据集

本研究基于最受欢迎和有价值的平行语料库，将两种最先进的基于注意力的 seq2seq 模型应用于波斯语 - 英语机器翻译任务，旨在为研究人员提供标准基准，以评估其翻译结果。

Feb, 2023

跨语言命名实体识别中的实体投影机器翻译

利用机器翻译提升跨语言命名实体识别中的注释映射技术并得到优越的实验结果。

Aug, 2019

使用 BERT 的波斯语命名实体识别模型 Beheshti-NER

本文使用预训练的深度双向网络 Google BERT，建立了一个用于波斯语命名实体识别的模型，并在 CONLL 2003 评测任务中获得了较高的成绩。

Mar, 2020

从可比语料库中提取英波斯平行语料库

使用双向方法从英语和波斯文档的维基百科中提取平行句子，使用机器翻译系统将波斯文翻译成英文，反之亦然，然后使用 IR 系统测量翻译后句子的相似度，并将提取的句子加入现有 SMT 系统的训练数据，以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子，已按其相似度由 IR 系统计算排序，并可在 Web 上免费访问。

Nov, 2017

使用 BERT 实现通用语言命名实体识别

本文研究了一种基于多语言 BERT 的单一命名实体识别模型，使用多任务学习和分块更新规则等正则化策略优化模型，并证明在多种语言数据集上表现优于专注于单一语言模型，并能够进行零样本预测。

Nov, 2019

使用回译的数据增强方法应用于低资源的命名实体识别

本文提出了基于回译技术的数据增强策略，用于命名实体识别任务的低资源域，实验结果表明该方法在材料科学和生物医学领域中均表现出了高效的性能。

Aug, 2021

土耳其自然语言推理的数据和表示

本研究旨在利用商业机器翻译系统自动翻译英语数据集以进行 Turkish NLI 模型的训练，发现语言内嵌入是必要的，并且在训练集较大时可以避免形态分析。最终，我们发现这些模型在人工翻译的评估集上表现良好，并将所有的代码、模型和数据公开分享。

Apr, 2020

命名实体音译中的设计挑战

本文探讨了多语种最新命名实体转写系统的一些基本设计挑战，并使用传统的加权有限状态转换器方法对两种神经方法进行实证评估：编码器 - 解码器循环神经网络方法和最近的非顺序 Transformer 方法。为了提高双语命名实体转写数据集的可用性，我们在英语到俄语、希伯来语、阿拉伯语和日语片假名方面发布了从维基数据中构建的个人命名双语词典。我们的代码和词典已经公开发布。

Aug, 2018

使用单语语料库进行神经机器翻译

本篇论文研究了如何利用丰富的单语语料库对神经机器翻译进行建模，结果表明在低资源的土耳其 - 英语和中英文聊天信息场景下，相较于短语和层级翻译，可以提高高达 1.96 和 1.59 的 BLEU 值，同时也适用于高资源语言，例如捷克语 - 英语和德语 - 英语，并成功提高了 0.39 和 0.47 个 BLEU 分数。

Mar, 2015

使用新的命名实体翻译方案改善 MT 输出的质量

本文通过将当前最先进的名词实体翻译方案与转音符号结合，引入了一个新的机器翻译方法。作者通过构建多种基于统计规则的音节分隔规则，借助概率计算得到一个英语到旁遮普语的名词实体翻译与转音符翻译系统，通过调用统计机器翻译工具 MOSES 提高了翻译质量。

Oct, 2013