本论文提出了一种直接自动生成目标语言字幕及相应时间戳的自动字幕模型,与现有的级联模型相比,在提供高质量字幕的同时也具有更高的一致性和维护单一模型的优点。
Sep, 2022
本研究提出了一种利用多模态方法将现有的语音翻译资料转换为符合 SubST 准则的字幕翻译资料的方法。通过训练一个基于音频和文本结合的分段模型,实现高质量的自动分段,并通过对比实验验证了该方法的有效性。
该论文描述了 FBK 参与 IWSLT 2023 评估活动中的同时翻译和自动字幕轨道。我们的提交重点是使用直接架构来执行这两项任务:对于同时翻译,我们利用了离线训练模型已经获得的知识,并直接应用策略获得实时推理结果;对于字幕,我们对直接 ST 模型进行了调整,生成了符合规范的字幕,并利用相同的架构生成了与视听内容同步的时间戳。与 2021 年和 2022 年任务的排名前几位系统相比,我们的英德 SimulST 系统显示出更低的计算感知延迟,BLEU 提高了最多 3.5 分。我们的自动字幕系统在英德和英西文中分别比基于直接系统的唯一现有解决方案优于 3.7 和 1.7 SubER。
Sep, 2023
本研究提出一种利用电视字幕数据进行语音识别与自动字幕生成的多任务双解码器 Transformer 模型,通过模型共享的编码器,同时预测语音和生成字幕,无需预处理,实现了 ASR 性能的提升。
Oct, 2022
本文介绍了一种双重解码方案,以达到自动字幕和字幕紧密耦合的目的,并展示了如何在模型大小和训练复杂性方面几乎不增加成本的情况下提高其足够性和一致性。
May, 2022
本文提出了一种基于神经网络的语音 - 语音翻译系统,实现了自动配音。实验结果表明自动配音的自然度得到了显著提升,包括多个技术创新点,如神经机器翻译、音频渲染、语音对位、语音合成等。
Jan, 2020
本文综述了自动音频字幕生成领域内的研究现状,包括使用的深度学习技术、网络架构、评估指标和挑战,同时讨论了未来的研究方向。
本文介绍了解决自动生成字幕质量评估问题的 SubER 度量方法,可综合考虑文本质量、分段及时间轴匹配,经人工评估表明此方法与后编辑准确性和人工评定分数高度相关,优于现有方法。
探讨了如何应用视觉通道,以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性,并比较了两种方法在干净和嘈杂的数据上的效果。
Apr, 2018
本文研究了在成本敏感的情况下,如何以固定的时间预算自动选择错误修正的位置和大小,以最大化修正的错误数量,并提出了一种动态更新框架来训练纠错成本模型,进而实现高度适应性。该方法在模拟和实际的用户研究中均获得了有效的效率改进。
Sep, 2017