提出了一种小型模型的分段模型,使用 ASR 语音识别与标点任务作为前训练策略并将其整合到 ST 系统中,以提高语音翻译质量。
Jun, 2024
通过将大型语言模型(LLM)用于将长 ASR 转录分割成可独立翻译的片段,以最大化整体翻译质量,采用有限状态约束进行解码以消除无效输出,通过提示调整或微调发现 LLM 可适应包含 ASR 错误的转录,与现有自动标点基线相比,我们最佳的 LLM 在 9 个测试集的英语 - 德语、英语 - 西班牙语和英语 - 阿拉伯语 TED 演讲翻译中将平均 BLEU 提高了 2.9 个点,仅通过改进分隔。
Oct, 2023
本研究提出了一种基于二分类模型的语音分割方法,并结合检测静音的 VAD 方法,该方法更适用于级联和端到端语音翻译系统,翻译性能也得到了进一步提升。
Mar, 2022
提出一种基于滑动窗口的方法来翻译语音识别输出,实验结果表明比传统的 ASR 分段方法提高了 1.3-2.0 BLEU 分数,且减少了重新翻译的需要。
Oct, 2022
通过从语言模型中提炼标点符号知识,并将其应用于分割长篇语音,我们研究出一种优于其他方法的,实现了 3.2% 相对词错误率增益以及 60ms 中位端到端延迟降低的流式自动语音识别管道分割器。
May, 2023
本文提出了一种基于 Differentiable Segmentation 的新型 SimulST 方法,该方法可以直接从底层翻译模型中学习分割,并通过所提出的期望训练将硬分割转换为可区分的方式,从而使其能够与翻译模型进行联合训练,从而实现优化的分割。实验结果表明,DiSeg 具有卓越的分割能力和最先进的性能。
本研究旨在通过微调大型语言模型,将长语音自动识别转换成短模块,以提高翻译质量,在三种语言上表现实验效果优于自动标点基线,同时使用两种条件解码策略提高输出的良好性。
Dec, 2022
低延迟语音翻译的评估框架:该研究提出了第一个在真实场景下执行和评估低延迟语音翻译各个方面的框架,通过对音频分割和不同组件运行时间的评估,比较可修订输出模型和固定输出方法,对比级联和端到端系统,并自动评估翻译质量和延迟,并提供网页接口展示低延迟模型输出给用户。
Aug, 2023
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020
同时语音翻译 (SST) 的目标是提供实时的口语翻译,即使在发言者完成句子之前。传统上,SST 主要通过级联系统来解决,将任务分解为子任务,包括语音识别、分割和机器翻译。然而,深度学习的出现激发了对端到端 (E2E) 系统的极大兴趣。然而,当前文献中大多数 E2E SST 方法的主要限制是它们假设源语音被预分割为句子,这对于实际的现实应用是一个重要的障碍。本论文提出了端到端的同时语音翻译,特别是在长篇设定中,即不进行预分割。我们对 E2E SST 的最新进展进行了调研,评估了 SST 的主要障碍以及其与长篇情景的相关性,并提出了应对这些挑战的方法。