Sep, 2022

QUAK:一份用于韩英神经机器翻译的合成质量估计数据集

TL;DR本文提出 QUAK, 是一个自动生成的合成 QE 数据集(包括三个子数据集),可用于提高机器翻译输出质量的自动预测。该数据集是通过三种相对自由的生成策略产生的,具有良好的可扩展性,已扩展到 1.58M 到 6.58M。对数据集进行统计分析后发现,QUAK-M,P 中添加数据可获得显著性能提升。