Sep, 2022
QUAK:一份用于韩英神经机器翻译的合成质量估计数据集
QUAK: A Synthetic Quality Estimation Dataset for Korean-English Neural
Machine Translation
TL;DR本文提出QUAK, 是一个自动生成的合成QE数据集(包括三个子数据集),可用于提高机器翻译输出质量的自动预测。该数据集是通过三种相对自由的生成策略产生的,具有良好的可扩展性,已扩展到1.58M到6.58M。对数据集进行统计分析后发现,QUAK-M,P中添加数据可获得显著性能提升。