- 将 LLMs 融入级联语音翻译:KIT 离线语音翻译系统在 IWSLT 2024 中的应用
将大型语言模型(LLMs)集成到自动语音识别(ASR)和机器翻译(MT)系统中,通过利用 N-best 列表细化 ASR 输出和精炼 LLM 来提高翻译质量,实现了 ASR 和 MT 系统的性能改进。
- 逐步推进零尾到尾语音翻译的极限
该论文介绍了一种名为 ZeroSwot 的零样本语音翻译方法,通过利用新颖的 CTC 压缩和最优传输技术,在没有配对的语音翻译数据的情况下,通过仅使用语音识别数据训练语音编码器,实现了语音到文本的直接翻译,展示了该方法在模态差异上的优越性和 - 端到端语音翻译的模态空间软对齐
使用软对齐方法进行端到端语音翻译,通过对抗训练对齐语音和文本之间的表示空间,提高翻译性能。
- EMNLP重思和改进端到端语音翻译的多任务学习
通过应用多任务学习,已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性,并提出了一种改进的多任务学习方法,通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外,当使用额外的数据时,我们在 - 调整大型语言模型用于端到端语音翻译
本研究提出了 LST,一个大型多模型,旨在优化端到端语音翻译任务的性能并创造新的技术水平。在 MuST-C 语音翻译基准测试中,LST-13B 取得了 30.39/41.55/35.33 的 BLEU 分数,超过了之前的模型并树立了新的最新 - 通过利用目标语言上下文提升端到端会话语音翻译
在这篇研究中,我们介绍了如何在端到端语音翻译中引入目标语言上下文,以增强连贯性并克服扩展音频片段的内存限制。此外,我们还提出了上下文丢弃以确保对上下文缺失的鲁棒性,并通过添加说话者信息进一步提高性能。我们的上下文化端到端语音翻译方法优于孤立 - DiariST: 带有说话者分离的流式语音译文
该论文提出了 DiariST,第一个基于神经传感器的流式语音翻译和说话人分离解决方案,它集成了用于多说话人语音识别的标记级别序列化输出训练和 t 向量,通过新的评估数据集 DiariST-AliMeeting 和新的衡量 ST 质量的度量方 - 预训练编码器和解码器之间的有效连接,用于语音翻译
本研究提出了一种互连机制,通过加权求和来聚合语言预训练模型的每一层信息并输入到解码器中,从而提高了 BLEU 大约 2 分,在冻结语言预训练模型时加入了 2K 的参数。此外,我们通过可视化层权重,发现每个语言的每层的贡献是不同的。
- ACLCMOT: 基于最优传输的跨模态 Mixup 语音翻译
该论文研究了语音翻译的跨模态任务,以及如何通过使用最优传输和跨模态混合等方法,来克服语音和文本之间的模态差异,从而提高翻译的准确性。实验结果表明,该方法比以往方法表现更优秀。
- 通过跨模态多粒度对比学习提高语音翻译质量
该论文提出了一种 FCCL 方法,通过跨模态多粒度对比学习来实现显式知识转移,该方法在多语言和多粒度上显著优于 E2E-ST 基线,有助于提取包含丰富语义信息的语音表示。
- ACL通过粗标签实现端到端语音翻译的高效 CTC 正则化
本文研究了在端到端语音翻译中采用 CoLaCTC 来替代传统 CTC 所需的真实的词汇标签,以达到减少模型参数,提高计算效率的目的,并通过实验证明,CoLaCTC 在具有可比甚至更好的性能的情况下,能够缩小标签空间达 256,并进一步提高 - AdaTranS: 基于边界缩小适应的端到端语音翻译
本研究提出了 AdaTranS 技术,通过预测单词边界,减少语音和文本特征之间的长度差异以适应语音特征,解决了端到端语音翻译中的数据稀缺问题。通过 MUST-C 数据集的实验表明,AdaTranS 比其他基于收缩的方法具有更好的性能,具有较 - 可解释性端到端语音翻译:通过操作序列生成进行校准,写入和重新排序
本文提出一种将自动语音识别和语音翻译集成生成的方法,允许生成同时满足单调字幕和非单调翻译的操作序列,以实现对语音输入的实时解释。
- EMNLP离散跨模态对齐实现零 - shot 语音翻译
该研究提出了一种新的离线语音翻译方法,称为离散跨模态对齐方法(Discrete Cross-Modal Alignment method),该方法能有效地将语音和文字的两种模态映射到共享的语义空间中,从而提高零 - shot 语音翻译的性能 - ACL从口语词汇生成合成语音用于语音翻译
该论文提出了一种名为 SpokenVocab 的数据增强技术,可将机器翻译数据转换为语音翻译数据,从而消除了数据稀缺的问题,并取得了比基线更好的效果,同时适用于代码切换语音翻译领域。
- EMNLPJoeyS2T:基于 JoeyNMT 的极简语音转文本建模
JoeyS2T 是一个扩展 JoeyNMT 用于语音转文字任务,如自动语音识别和端到端语音翻译的工具,使用卷积层等语音相关组件,并在英语语音识别和英语到德语语音翻译基准测试中表现良好。
- 无切换编码:语言无关的端到端语音翻译
我们提出了一种语言无关的端到端语音翻译模型(LAST),并提出了一种数据增强策略来提高代码切换性能。通过使用此模型,我们可以在处理多种语言混合的自然语音时,无需使用语言特定的语音识别和翻译组件,并显著减少延迟和错误率。
- EMNLP无参数领域自适应端到端语音翻译
本文提出了一种基于领域特定文本翻译语料库的非参数方法,用于增强 E2E-ST 系统在领域自适应中的效果,实验结果表明,相比于强烈的领域内微调方法,该方法在所有翻译方向上的平均基线 BLEU 值提高了 12.82 BLEU,甚至超过了强大的领 - 大规模流式端到端语音翻译基于神经转录器
本文介绍了如何将神经转录器引入流式端到端语音翻译(ST)中,提出了基于注意力池化的 Transformer transducer(TT)模型以及在多语言 ST 中的应用,结果表明 TT 模型不仅显著减少了推理时间,而且在英德翻译上优于基于 - ACL采样、翻译、重组:利用音频对齐进行数据增广的端到端语音翻译
本文提出了一种基于声音对齐、语言属性和翻译的数据增强方法,通过从后缀内存中的文本和音频数据中进行采样,翻译增强后的转录结果,最后重新组合连接的音频段和生成的翻译,不仅训练了机器翻译系统,还使用了基本的现成组件,其资源需求与知识蒸馏相似,但对