Jul, 2023

利用生成式语言模型进行神经机器翻译的数据增强

TL;DR通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。