基于无监督领域自适应的方言搜索查询翻译
提出一个针对跨语言信息检索的全面无监督框架,通过基于单语语料库构建共享的跨语言词嵌入空间,利用来自对抗神经网络的迭代过程实现无需双语数据的检索,实验验证了该方法的有效性,并通过无监督集成 CLIR 模型提升性能。
May, 2018
提出了一种利用众包工作者从网络中有效地收集一个目标领域平行句子的框架,从而快速地将机器翻译模型适应于目标领域,实验证明这种方法可以在几天内以合理的成本收集到目标领域平行数据,并且与通用翻译模型相比,域适应模型的 BLEU 评分平均提高了 7.8 分、最高提高了 19.7 分。
Oct, 2022
本文针对神经机器翻译中的无监督领域自适应问题,提出一种跨语料库数据选择方法,通过对多语言 BERT 进行对比学习,实现源语言和目标语言之间的表示对齐,从而实现零样本领域分类器的可转移性,并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估,并在 COVID-19 疫情实时翻译中进行了应用验证, 实验结果表明,我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。
Sep, 2021
比较了使用大型语言模型生成查询和基于规则的方法进行合成注释来进行神经信息检索,结果表明大型语言模型在所有情景中的性能优于基于规则的方法,而无监督领域适应相对于零样本方式应用监督信息检索系统是有效的。
Oct, 2023
提出了一种基于单语语料的机器翻译方法,该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中,从而学习翻译而不使用任何标记数据,该方法在两种语言对的两个广泛使用的数据集上表现出色。
Oct, 2017
本文提出了一种用于自动提取领域特定特征和领域不变特征的无监督特征分解方法,并利用互信息估计将交叉语言表示计算所述的跨领域和跨语言(CLCD)设置分解为领域不变和领域特定部分,实验结果表明,我们提出的方法在 CLCD 设置中取得了显著的性能提升。
Nov, 2020
使用仅源侧数据进行微调的训练方法在机器翻译中取得了巨大的进展,通过结合 BERTScore 和 Masked Language Model 评分的损失函数,我们的模型在 BLEU 得分上达到了 1.9 的改进,并在 TER 和 BLEURT 度量上取得了显着的改进。
Oct, 2023
本研究探讨了针对预训练第三方 NMT 模型的单语和平行数据方法在领域适应中的效果,在低资源条件下提出了集成方法来缓解翻译质量的降低,并给出了在三个领域和四个语言对中的建议。
Jun, 2022
本文展示了一种简单的初始化方案,用于克服跨语言转移中不同领域的影响,通过在领域不匹配的语料库上预训练词和上下文嵌入,然后用于多个任务中,包括 UBLI、UNMT 和 SemEval 2017 跨语言词汇相似性任务,挑战了之前的研究论文并指出,在适当初始化的情况下可以恢复由于域不匹配而产生的损失。
Nov, 2022