联合语音转录和翻译:使用 Out-of-Distribution 数据进行伪标签
本文主要探讨了在端到端语音翻译中数据稀缺的问题,并提出了一种利用级联和端到端语音翻译模型生成伪标签的方法,在 MuST-C 英法和英德数据集上达到了领先水平,同时也比仅对编码器进行语音识别任务的预训练方法更加有效。最后,通过直接使用端到端模型生成伪标签的自我训练方法证明了其有效性。
Jun, 2020
本文利用无监督语音识别、机器翻译与语音合成技术,探讨实现无标注数据建立语音翻译系统的方法,通过管道方法或生成伪标签,对端到端语音翻译模型进行训练。同时,提出一种无监督域自适应方法,能够提供一定的性能提升。实验结果表明,本文提出的无监督语音翻译方法,在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点,在 CoVoST2 数据集上,本文的最佳系统相对于最佳监督学习的端到端模型(无预训练),在五个语种(X-En)上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上,本文也取得了有竞争力的结果。
Oct, 2022
本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题,探索了自监督预训练和数据增强技术来解决此问题,实验表明自监督预训练可以提高模型性能,结合数据增强技术可以进一步提高模型性能。
Apr, 2022
本文探讨了自我训练在端到端语音识别中的应用,并展示给出了使用伪标签训练深度学习模型的方法,经过实验证明了该方法可以大幅提高基准模型的准确率,通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制,并采用新颖的集成方法提高伪标签的多样性,实验结果表明,在噪声语音环境下,使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型,使字错率(WER)提高了 33.9%;在清晰语音环境下,自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8%的差距。
Sep, 2019
本文介绍了一种利用自我监督和伪标记来预先训练深度模型,并提出了一种含义增强器和相互关注的方法来生成上下文感知的查询表示,以改进视频摘要任务的性能,并在常见的视频摘要 benchmark 中获得了最先进的性能。
Jul, 2023
本文提出了一种基于自训练的半监督学习方法,通过加入 label 缺失的无标签数据和模型预测,模型的性能和精确度可以得到有效的提升,而 dropout 和注入噪声则是关键操作。
Sep, 2019
该研究提出了一种利用信息论界限和特征对齐技术,将目标数据划分为伪标记子集和无标记子集以实现平衡的无监督域自适应方法,取得了比现有方法更好的性能表现。
Feb, 2022
通过使用伪标签技术的半监督学习,结合泛化的 CTC 损失函数、对抗性 CTC 损失函数和自动阈值方法,本研究提出了一种名为 “替代伪标签” 的新框架,以应对噪声伪标签带来的问题。
Aug, 2023
本文研究使用伪标签微调自监督预训练模型的方法,提出通过平均概率分数过滤低质量的伪标签,挑选高可信性训练数据,迭代更新模型纠正不可靠的伪标签并去除噪声标签的策略,以提高语音识别性能。实验结果表明,该方法在 LibriSpeech 上具有良好表现。
Oct, 2022