COLINGFeb, 2024

针对无监督数据选择的稳健指导:捕获领域专属机器翻译中困惑的专有名词

TL;DR在专业领域内使用多语种机器翻译模型进行句子翻译时,通过广泛的数据集进行训练往往难以准确翻译。为了得到高质量的翻译,获取和翻译专门领域的数据成本很高,因此,通过无监督的方式找到最有效的数据,以降低标注成本变得实际可行。最近的研究表明,通过基于数据量来选择 “适度困难的数据” 可以找到这些有效数据,即数据既不过于困难也不过于简单,特别是在数据量有限的情况下。然而,我们发现在选择无监督数据时建立标准仍然具有挑战性,因为 “适度困难” 可能基于训练的数据领域而有所不同。本研究提出了一种新颖的无监督数据选择方法,即 “获取令人困惑的命名实体”,该方法采用翻译后命名实体的最大推理熵作为选择度量。其动机在于,专门领域数据中的命名实体被认为是数据最复杂的部分,应该以高置信度进行预测。通过对 “专门领域韩英平行语料库” 的验证,我们的方法在无监督数据选择方面表现出稳健性,与现有方法相比具有指导意义。