提出了一种称作 STAST 的语音转写自适应模型,通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距,进而在英法和英德语音翻译数据集上实现了显著的性能优越。
Oct, 2020
该研究提出了一种新的离线语音翻译方法,称为离散跨模态对齐方法(Discrete Cross-Modal Alignment method),该方法能有效地将语音和文字的两种模态映射到共享的语义空间中,从而提高零 - shot 语音翻译的性能。
Oct, 2022
本文研究对于 ST 和 MT 之间的通道差,提出了一种名为 Cress 的跨模态规范化方法。通过输出 ST 和 MT 的预测值,使用采样和不同训练权重来处理难以处理的情况,实现了在 MuST-C 数据集的八个方向上取得了显著效果。
May, 2023
最近的研究在端到端语音到文本翻译(ST)中提出了多任务方法,通过辅助编码器将机器翻译(MT)数据映射到最终的跨模态表示中,采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架,通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列,从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验,我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类(CTC)、转录器和联合 CTC / 关注模型,而无需外部 MT 数据。此外,我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进,并且可以提高从预训练的文本模型进行迁移学习,从而产生 1.8 BLEU 的改进。
Sep, 2023
该研究提出了一种无监督的跨模态对齐框架,通过对抗训练和优化过程来实现语音和文本的嵌入空间对齐,从而帮助开发对低资源语言进行语音识别和语音到文本翻译的自动化系统,并且在分类和翻译任务上的表现与监督的方法相媲美。
May, 2018
该研究提出了 FST 跨模态模型,支持语音、文本和语音文本融合三种不同类型的输入模态进行翻译,技术包括多模态对齐等方法,实验结果表明该模型在多项测试中比传统方法有显著提升,尤其是在语音翻译领域。
本文提出了一种基于元学习算法采用模态不可知的多任务模型,将源任务 ASR + MT 的知识转移到目标任务 ST 中,以应对 ST 任务短缺数据的问题,该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。
Nov, 2019
该论文研究了语音翻译的跨模态任务,以及如何通过使用最优传输和跨模态混合等方法,来克服语音和文本之间的模态差异,从而提高翻译的准确性。实验结果表明,该方法比以往方法表现更优秀。
该研究提出了基于明确的跨模态对齐的 STS 模型 AlignSTS,用于进行语音到歌唱的转换,实验结果表明,在客观和主观指标上 AlignSTS 表现优异。
本论文研究联合语音 - 文本 Embeddings 空间的内在属性,借助自动语音识别,通过多任务预训练场景实现语义对齐,利用定量检索精度度量语义对齐,进行了深入分析。
Apr, 2022