ACLMay, 2022

ParaCotta: 来自最具多样性的翻译样本对的合成多语言释义语料库

TL;DR使用神经机器翻译系统,通过 beam search 生成多个候选翻译样本,选择词汇最多样化的一对生成句式相似,语义丰富、跨 17 种语言的人工合成平行释义语料库,并用 BLEU 对比了其与 ParaBank2,结果表明其生成的句子语义类似而且词汇丰富度较高。