- 轻量级音频分割用于长篇语音翻译
提出了一种小型模型的分段模型,使用 ASR 语音识别与标点任务作为前训练策略并将其整合到 ST 系统中,以提高语音翻译质量。
- COLING评估 IWSLT2023 语音翻译任务:人工标注、自动评估和分割
从机器翻译系统开发中,人类评估一直是一个关键组成部分,并在文本翻译研究中受到了广泛关注。然而,在人类评估语音翻译方面,之前的研究工作很少,这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会(IWSLT 2 - ACLMELD-ST:一种情感感知的语音翻译数据集
本文强调在语音翻译中考虑情感的重要性,并介绍了 MELD-ST 数据集,该数据集用于情感感知的语音翻译任务,包括英至日和英至德语言对。每个语言对都包含约 10,000 个用 MELD 数据集进行情感标注的话语。对数据集使用 Seamless - 推进语音翻译:普通话 - 英语电话会话语料库
本文介绍了英语翻译,适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明,将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上,突显了配对训练数据的重要性。
- 通过离散语音单元预训练的紧凑语音翻译模型
使用自监督学习作为模型初始化在语音翻译中取得较好结果已经很常见,但也对设备上的部署造成了大量的内存开销。本文通过在离散语音单元上对自监督学习模型进行预训练,从而在有限的语音翻译数据上微调初始化的新模型,并利用离散语音单元预训练来凝结自监督学 - EMNLP将语言模型整合到直接语音翻译中:一种控制性别屈折的推理时间解决方案
用于语音翻译系统的控制说话者性别变化的解决方案通过使用性别特定的外部语言模型,在性别准确性方面比基本模型和最好的训练时间缓解策略分别提高了 31.0 和 1.6 个百分点,特别是在说话者的声音特征与性别相冲突的情况下,增益甚至更大(最多 3 - 如何构建多性别竞争性语音翻译模型以控制说话者性别翻译
通过将说话者的性别元数据合并到单个 “多性别” 神经语音转换模型中,可以避免性别偏见并提高性别准确性(女性形式可提高 12.9),相比专门的性别模型,该模型训练自零效果更好,而基于现有频培训模型的微调则不具有竞争力。
- 利用时间戳信息进行序列化联合流式识别和翻译
提出了一种流式 Transformer-Transducer (T-T) 模型,能够使用单个解码器联合生成多对一和一对多的转录和翻译,并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, e - 面向现实世界的流式语音转换翻译
该研究聚焦于实时交流中的语种转换问题以及第三种语言的翻译,并通过将现有数据集扩展到西班牙语和德语,训练了离线和实时语音翻译模型,并建立了基准结果。
- 跨语种和语言模态之间的桥梁:同步双语 CTC 用于语音翻译和语音识别
本研究提出了一种创新的同步双语联结主义时间分类 (CTC) 框架,利用双重 CTC 来填补语音翻译任务中模态和语言之间的差距。通过将转录和翻译作为 CTC 的并行目标,我们的模型填补了音频和文本以及源语言和目标语言之间的差距。在 CTC 应 - 利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成,其平均 ASR 延迟为 1 秒,ST 延迟 - HK-LegiCoST: 利用非逐字稿件进行语音翻译
HK-LegiCoST 是一个新的三方平行语料库,包含 600 多小时的粤语音频、其标准繁体中文文本和英文翻译,可用于研究粤语非笔录文本的语音翻译。
- NAVER LABS Europe 的多语种语音翻译系统对 IWSLT 2023 低资源轨道的支持
本文介绍了 NAVER LABS Europe 的 Tamasheq-French 和 Quechua-Spanish 语音翻译系统,着重研究了在低资源情况下使用多语种参数高效解决方案,利用强大的预训练模型来最大化翻译质量的工作。
- ACL模态适应还是正则化?以端到端语音翻译为例的案例研究
该研究发现,在端到端语音翻译 (E2E ST) 的预训练和微调中,存在语音和文本数据之间的模态差异,但该差异只在微调的早期阶段产生影响。然而,另一个 “容量差距” 则是高资源任务总是需要一个大模型来适应,当模型被重用于低资源任务 (E2E - KIT 的 IWSLT 2023 多语言语音翻译系统
本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统,使用了 kNN-MT 方法进行有效适应,该系统远优于其端对端对应物。
- 基于基础模型和最优输运技术的语音翻译:UPC 参加 IWSLT23 比赛
本文介绍了 UPC 语音翻译小组提交给 IWSLT 2023 离线语音翻译任务的成果。他们使用了基于 wav2vec2.0 和 mBART50 的基础模型, 通过 CTC 和最优传输的同时式预训练步骤,将语音编码器和文本编码器适应到一个空间 - ACL基于 CTC 的非自回归语音翻译
本文介绍了一种基于 CTC 的非自回归语音翻译模型,采用预测感知编码方法和跨层注意力方法解决了翻译任务中的条件独立生成和单调对齐等问题,加速比为 5.67 倍,BLEU 分数为 29.5,在 MuST-C ST 基准测试上优于自回归模型和之 - ACLBIG-C:面向本巴语的多模态通用数据集
BIG-C 是一个基于图像的 Bemba 语言的大型多模数据集,其中包含 92,000 多轮对话,180 小时的音频数据和对应的翻译,提供了语音识别、机器翻译和语音翻译等任务的基线,并且意在促进语言、语音和视觉社区之间的研究和合作。
- 融合语音和文本改进语音翻译
该研究提出了 FST 跨模态模型,支持语音、文本和语音文本融合三种不同类型的输入模态进行翻译,技术包括多模态对齐等方法,实验结果表明该模型在多项测试中比传统方法有显著提升,尤其是在语音翻译领域。
- 利用目标因素和辅助计数器提高等时机器翻译
本文介绍了使用 Transformer 模型中的目标因素来预测目标语言音素序列和持续时间的方法,辅助计数器可帮助解码器在生成目标音素时跟踪时序信息,该模型改进了翻译质量和等时性。