Dec, 2022
基于分段增强的语音翻译数据效用最大化(SegAugment)
SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations
Ioannis Tsiamas, José A. R. Fonollosa, Marta R. Costa-jussà
TL;DR提出了一种名为 SegAugment 的数据增强方法,通过音频分割系统重新分割每个文档的语音,以获取多个目标文本,并得到多个和不同的句子级视图,实现了语音翻译中的数据增强,平均 BLEU 分数增加了 2.2 个点,并且在低资源场景下增加了 4.7 个 BLEU 点。