自动字幕直接语音翻译

Sep, 2022

Direct Speech Translation for Automatic Subtitling

Sara Papi, Marco Gaido, Alina Karakanta, Mauro Cettolo, Matteo Negri...

TL;DR本论文提出了一种直接自动生成目标语言字幕及相应时间戳的自动字幕模型，与现有的级联模型相比，在提供高质量字幕的同时也具有更高的一致性和维护单一模型的优点。

Abstract

automatic subtitling is the task of automatically translating the speech of an audiovisual product into short pieces of timed text, in other words, →

automatic subtitling audiovisual product subtitles timestamps single solution

发现论文，激发创造

自动字幕中消除对剧本依赖性的 SBAAM 方法

直接生成的自动字幕模型填补了依赖于中间文件的不足，通过消除对中间转录的依赖，实现了对多语种、多样化环境下的自动字幕新的最佳性能。

May, 2024

FBK@IWSLT2023 的直接模型对于同步翻译和自动字幕

该论文描述了 FBK 参与 IWSLT 2023 评估活动中的同时翻译和自动字幕轨道。我们的提交重点是使用直接架构来执行这两项任务：对于同时翻译，我们利用了离线训练模型已经获得的知识，并直接应用策略获得实时推理结果；对于字幕，我们对直接 ST 模型进行了调整，生成了符合规范的字幕，并利用相同的架构生成了与视听内容同步的时间戳。与 2021 年和 2022 年任务的排名前几位系统相比，我们的英德 SimulST 系统显示出更低的计算感知延迟，BLEU 提高了最多 3.5 分。我们的自动字幕系统在英德和英西文中分别比基于直接系统的唯一现有解决方案优于 3.7 和 1.7 SubER。

Sep, 2023

自动化分段 ST 语料库的自动字幕技术解决数据瓶颈问题

本研究提出了一种利用多模态方法将现有的语音翻译资料转换为符合 SubST 准则的字幕翻译资料的方法。通过训练一个基于音频和文本结合的分段模型，实现高质量的自动分段，并通过对比实验验证了该方法的有效性。

Sep, 2022

双重解码生成标题和字幕

本文介绍了一种双重解码方案，以达到自动字幕和字幕紧密耦合的目的，并展示了如何在模型大小和训练复杂性方面几乎不增加成本的情况下提高其足够性和一致性。

May, 2022

学习联合转录和字幕生成用于端到端自发语音识别

本研究提出一种利用电视字幕数据进行语音识别与自动字幕生成的多任务双解码器 Transformer 模型，通过模型共享的编码器，同时预测语音和生成字幕，无需预处理，实现了 ASR 性能的提升。

Oct, 2022

联合优化翻译和语音时序以改善自动配音中的等时间性

本研究提出了一种自动配音的模型，通过同时进行翻译和语音持续时间的优化，实现生成的配音更好地匹配原始视频的时间轴，同时简化了整个系统的结构。

Feb, 2023

从语音到语音翻译到自动配音

本文提出了一种基于神经网络的语音 - 语音翻译系统，实现了自动配音。实验结果表明自动配音的自然度得到了显著提升，包括多个技术创新点，如神经机器翻译、音频渲染、语音对位、语音合成等。

Jan, 2020

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

VideoDubber: 视频配音的语音感知长度控制机器翻译

该研究针对影视配音中原始语音和目标语音的对齐问题，提出一种机器翻译系统，通过考虑语音时长控制翻译长度，构建了真实世界情景下的测试集，实现了对自然长度的更好控制。

Nov, 2022

基于序列到序列模型的直接语音到语音翻译

该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络，能够直接将一种语言的语音翻译成另一种语言的语音，无需中间文本表示，该方法通过学习将语音谱图映射到目标语言的谱图，同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验，证明了该方法在这个极具挑战的任务上的可行性。

Apr, 2019