基于无监督领域自适应的方言搜索查询翻译

Aug, 2022

基于无监督领域自适应的方言搜索查询翻译

Vernacular Search Query Translation with Unsupervised Domain Adaptation

Mandar Kulkarni, Nikesh Garera

TL;DR该研究提出了一种无监督领域适应方法，用于翻译搜索查询，使用了基于公共语料库训练的开放领域翻译模型，并使用两种语言的单语查询来调整该模型以适应查询数据，最终改进了 Hindi 到英文查询翻译的性能。

Abstract

With the democratization of e-commerce platforms, an increasingly diversified user base is opting to shop online. To provide a comfortable and reliable shopping experience, it's important to enable users to interact with the platform in the language of their choice. An accurate

e-commerce platforms cross-lingual information retrieval unsupervised domain adaptation search queries query translation

发现论文，激发创造

单语数据的无监督跨语言信息检索

提出一个针对跨语言信息检索的全面无监督框架，通过基于单语语料库构建共享的跨语言词嵌入空间，利用来自对抗神经网络的迭代过程实现无需双语数据的检索，实验验证了该方法的有效性，并通过无监督集成 CLIR 模型提升性能。

May, 2018

利用众包工作者进行机器翻译的域适应

提出了一种利用众包工作者从网络中有效地收集一个目标领域平行句子的框架，从而快速地将机器翻译模型适应于目标领域，实验证明这种方法可以在几天内以合理的成本收集到目标领域平行数据，并且与通用翻译模型相比，域适应模型的 BLEU 评分平均提高了 7.8 分、最高提高了 19.7 分。

Oct, 2022

基于多语数据选择的神经机器翻译领域通用无监督适应

本文针对神经机器翻译中的无监督领域自适应问题，提出一种跨语料库数据选择方法，通过对多语言 BERT 进行对比学习，实现源语言和目标语言之间的表示对齐，从而实现零样本领域分类器的可转移性，并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估，并在 COVID-19 疫情实时翻译中进行了应用验证，实验结果表明，我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。

Sep, 2021

神经信息检索的无监督领域自适应

比较了使用大型语言模型生成查询和基于规则的方法进行合成注释来进行神经信息检索，结果表明大型语言模型在所有情景中的性能优于基于规则的方法，而无监督领域适应相对于零样本方式应用监督信息检索系统是有效的。

Oct, 2023

利用单语语料库进行非监督式机器翻译

提出了一种基于单语语料的机器翻译方法，该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中，从而学习翻译而不使用任何标记数据，该方法在两种语言对的两个广泛使用的数据集上表现出色。

Oct, 2017

预训练跨语言语言模型的无监督领域自适应

本文提出了一种用于自动提取领域特定特征和领域不变特征的无监督特征分解方法，并利用互信息估计将交叉语言表示计算所述的跨领域和跨语言（CLCD）设置分解为领域不变和领域特定部分，实验结果表明，我们提出的方法在 CLCD 设置中取得了显著的性能提升。

Nov, 2020

面向神经机器翻译的无监督领域自适应与领域感知特征嵌入

提出一种通过使用语言建模来学习领域感知特征嵌入，在多个实验中提高神经机器翻译性能的方法，该方法允许使用者指定特定领域的文本表示。

Aug, 2019

无参考域自适应：噪声问题的翻译与问题特定奖励

使用仅源侧数据进行微调的训练方法在机器翻译中取得了巨大的进展，通过结合 BERTScore 和 Masked Language Model 评分的损失函数，我们的模型在 BLEU 得分上达到了 1.9 的改进，并在 TER 和 BLEURT 度量上取得了显着的改进。

Oct, 2023

神经机器翻译中低资源域适应的正确配方寻找

本研究探讨了针对预训练第三方 NMT 模型的单语和平行数据方法在领域适应中的效果，在低资源条件下提出了集成方法来缓解翻译质量的降低，并给出了在三个领域和四个语言对中的建议。

Jun, 2022

领域不匹配并不总是阻止跨语言迁移学习

本文展示了一种简单的初始化方案，用于克服跨语言转移中不同领域的影响，通过在领域不匹配的语料库上预训练词和上下文嵌入，然后用于多个任务中，包括 UBLI、UNMT 和 SemEval 2017 跨语言词汇相似性任务，挑战了之前的研究论文并指出，在适当初始化的情况下可以恢复由于域不匹配而产生的损失。

Nov, 2022