自动字幕中消除对剧本依赖性的 SBAAM 方法

ACLMay, 2024

自动字幕中消除对剧本依赖性的 SBAAM 方法

SBAAM! Eliminating Transcript Dependency in Automatic Subtitling

Marco Gaido, Sara Papi, Matteo Negri, Mauro Cettolo, Luisa Bentivogli

TL;DR直接生成的自动字幕模型填补了依赖于中间文件的不足，通过消除对中间转录的依赖，实现了对多语种、多样化环境下的自动字幕新的最佳性能。

Abstract

subtitling plays a crucial role in enhancing the accessibility of audiovisual content and encompasses three primary subtasks: translating spoken dialogue, segmenting translations into concise textual units, and e

subtitling automated subtitles timestamp prediction transcription-free solutions accessibility

发现论文，激发创造

自动字幕直接语音翻译

本论文提出了一种直接自动生成目标语言字幕及相应时间戳的自动字幕模型，与现有的级联模型相比，在提供高质量字幕的同时也具有更高的一致性和维护单一模型的优点。

Sep, 2022

自动化分段 ST 语料库的自动字幕技术解决数据瓶颈问题

本研究提出了一种利用多模态方法将现有的语音翻译资料转换为符合 SubST 准则的字幕翻译资料的方法。通过训练一个基于音频和文本结合的分段模型，实现高质量的自动分段，并通过对比实验验证了该方法的有效性。

Sep, 2022

FBK@IWSLT2023 的直接模型对于同步翻译和自动字幕

该论文描述了 FBK 参与 IWSLT 2023 评估活动中的同时翻译和自动字幕轨道。我们的提交重点是使用直接架构来执行这两项任务：对于同时翻译，我们利用了离线训练模型已经获得的知识，并直接应用策略获得实时推理结果；对于字幕，我们对直接 ST 模型进行了调整，生成了符合规范的字幕，并利用相同的架构生成了与视听内容同步的时间戳。与 2021 年和 2022 年任务的排名前几位系统相比，我们的英德 SimulST 系统显示出更低的计算感知延迟，BLEU 提高了最多 3.5 分。我们的自动字幕系统在英德和英西文中分别比基于直接系统的唯一现有解决方案优于 3.7 和 1.7 SubER。

Sep, 2023

学习联合转录和字幕生成用于端到端自发语音识别

本研究提出一种利用电视字幕数据进行语音识别与自动字幕生成的多任务双解码器 Transformer 模型，通过模型共享的编码器，同时预测语音和生成字幕，无需预处理，实现了 ASR 性能的提升。

Oct, 2022

双重解码生成标题和字幕

本文介绍了一种双重解码方案，以达到自动字幕和字幕紧密耦合的目的，并展示了如何在模型大小和训练复杂性方面几乎不增加成本的情况下提高其足够性和一致性。

May, 2022

从语音到语音翻译到自动配音

本文提出了一种基于神经网络的语音 - 语音翻译系统，实现了自动配音。实验结果表明自动配音的自然度得到了显著提升，包括多个技术创新点，如神经机器翻译、音频渲染、语音对位、语音合成等。

Jan, 2020

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

SubER：字幕质量自动评估指标

本文介绍了解决自动生成字幕质量评估问题的 SubER 度量方法，可综合考虑文本质量、分段及时间轴匹配，经人工评估表明此方法与后编辑准确性和人工评定分数高度相关，优于现有方法。

May, 2022

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

逆时间转录

本文研究了在成本敏感的情况下，如何以固定的时间预算自动选择错误修正的位置和大小，以最大化修正的错误数量，并提出了一种动态更新框架来训练纠错成本模型，进而实现高度适应性。该方法在模拟和实际的用户研究中均获得了有效的效率改进。

Sep, 2017