- 众包数据中噪音对语音翻译的影响
本研究提出了一种自动的解决 MuST-C 语音翻译数据集中存在的质量问题的方法,使得标准测试集合的质量得到提高,模型发展的结果也得到了一致的认可。
- YiTrans IWSLT 2022 离线共享任务端到端语音翻译系统
本文介绍本团队使用 YiTrans 语音翻译系统参加 IWSLT 2022 离线任务,该系统基于大规模预训练编码器 - 解码器模型,并通过多阶段预训练策略、精细调节、数据过滤、数据增强、语音分割和多模型融合等多方面开展改进,结果显示我们的 - T-Modules: 零样本跨模态机器翻译的翻译模块
该论文提出了一种新的零样本跨模态翻译方法,通过将多语言语音和文本编码到联合的固定大小的表示空间中,然后比较不同的解码方法以实现跨语言和模态的零样本翻译。尽管有着固定大小的表示空间,但在多个文本和语音翻译任务中取得了非常好的结果,特别是在 M - SDS-200: 一份瑞士德语转标准德语文本语料库
SDS-200 是一份包含瑞士德语方言语音的语料库,其中标注了方言、年龄和性别等信息,可以用于训练语音翻译、方言识别和语音合成系统等。该数据集包含约 4000 名不同说话者的 200 小时的语音,并覆盖了瑞士德语方言的大部分领域。我们同时发 - 如何处理语音翻译中的人名?
本文通过分析 ASR/ST 系统的输出,针对人名转录 / 翻译的失败原因,采用创建多语言模型并强制系统共同生成转录和翻译的方法,从而显著提高了人名准确性。
- 高效而具有竞争力的语音翻译:FBK@IWSLT2022
本文主要研究了与语音翻译相关的模型训练成本问题,通过研究 ASR 预训练、数据过滤和音频分段等因素,提出了一种轻量级的训练策略,实现在降低模型训练成本的同时,优化了翻译质量,模型准确度得到提升。
- ACL语音翻译和识别的统一语音文本预训练
本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法,其中包括四个自监督和有监督的子任务以进行跨模态学习,其贡献在于将文本语料库中的语言信息整合到语音预训练中。
- ACL端到端的语音翻译用于代码切换的语音
本篇研究关注英语 / 西班牙语对话中出现的代码转换,探讨在语音翻译任务中采用级联和端到端、单向和双向等不同架构的模型表现,得出双向端到端模型表现良好的结论。
- GigaST:一份拥有 10,000 小时的伪语音翻译语料库
本文介绍 GigaST 数据集,它是一个大规模的伪语音转换语料库,通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练,最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的 - 结合谱特征和自监督特征进行低资源语音识别和翻译
该研究旨在探索将非学习的谱特征 (SF) 提取器与自我学习模型相结合的有效性,结果表明,该方法显著优于自我学习模型和基线模型,在语音识别和语音翻译两种任务中都表现出更好的性能,在自我学习培训集和目标语言数据存在域不匹配情况时,自我学习模型的 - 使用分割双语语音语料库优化语音分割的端到端语音翻译
本研究提出了一种基于二分类模型的语音分割方法,并结合检测静音的 VAD 方法,该方法更适用于级联和端到端语音翻译系统,翻译性能也得到了进一步提升。
- 用 “你怎么说” 来代表 “你说了什么”: 反映相应含义的英语语料库
研究语音翻译中的语音语调信息如何通过词汇和语法的方式映射到语言信息,并且如何将其转化为保存语调信息的翻译结果,通过对英语语调信息语料库的分析,提出了一种重点映射的方法,为研究语音翻译中语音信息的转化提供了更进一步的参考。
- 多语言同声传译
研究了一种在会议或会谈中进行同时语音翻译的应用程序,并探讨了使用在线口语翻译模型建立在线口语翻译系统的一般方法以及针对这种方法采用不同的语言和体系结构的多语种模型与端对端模型的能力。所提出的方法通过对 TEDx 语料库的实验证明,相似的潜在 - ACL在形态句法镜头下:对语音翻译性别偏见的多方位评估
通过对自然、性别敏感的 MuST-SHE 语料库进行 POS 和一致性链的语言学注释,在英法 / 意大利语 / 西班牙语三种语言方向上针对不同数量的数据和不同的词语分割技术进行多方面评估,揭示了性别偏见的模型行为,及其在多个细粒度层次上的检 - SHAS:面向端对端语音翻译的接近最优分段方法
本文提出了基于 Supervised Hybrid Audio Segmentation (SHAS) 的语音翻译模型,该模型利用了 wav2vec 2.0 的语音表示和分治算法找到最佳的分段点,可以有效地处理长语音和不可用手动分段的情况, - COLINGPrabhupadavani: 25 种语言的混合代码演讲翻译数据
介绍一份多语言混合口音语音翻译语料库 Prabhupadavani,该语料库包含 25 种语言的多种领域,94 小时的语音,可用于语音翻译和机器翻译任务。
- 塔马奇克语言的语音资源
本文介绍了两种 Tamasheq 语言的数据集,包括一系列来自尼日尔(Studio Kalangou)和马里(Studio Tamani)的广播新闻记录,并包括未标记的音频数据和 17 小时的平行音频语料库。这些数据将在语音社区中激发对 T - EMNLP白鲸” 是鲸鱼还是鸟类?语音翻译中的命名实体和术语
本研究通过 NEuRoparl-ST 基准测试,对自动翻译系统在翻译命名实体和领域特定术语方面的表现进行了分析,结果发现该系统翻译术语和 NE 的准确率达到 75-80%,在人名翻译方面的表现较低(37-40%),为此,本研究迎合了实际需求 - ACL学习何时为流式语音进行翻译
本文提出了 MoSST 方法,一种用于流式语音翻译的简单有效方法,通过在编码器 - 解码器模型中构建高效的单调分割模块来逐步累积声学信息并检测输入语音中的适当语音单元边界。实验表明,MoSST 在 MuST-C 数据集的多个翻译方向上表现优 - EMNLPSpeechformer:减少直接语音翻译中的信息损失
提出了 Speechformer 的架构,该架构通过减少注意层中的内存使用,避免了初始的失真压缩,并根据更具信息的语言标准仅在较高级别上聚合信息,该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。