观看、聆听和识别：基于字符的音频视觉字幕

Jan, 2024

观看、聆听和识别：基于字符的音频视觉字幕

Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling

Bruno Korbar, Jaesung Huh, Andrew Zisserman

TL;DR通过自动化、音频视觉的方法，本研究提出了一种生成具有精确语音时间戳和角色标识的对话全文本的字幕的方法，无需面部检测或追踪，旨在提高现代流媒体服务中大量视频的可访问性。

Abstract

The goal of this paper is automatic character-aware subtitle generation. Given a video and a minimal amount of metadata, we propose an audio-visual method that generates a full transcript of the dialogue, with precise speech timestamps, and the character speaking identified. The key idea is to first use →

automatic subtitle generation audio-visual cues speech timestamps character identification video streaming

发现论文，激发创造

剧本音视频的讲话人分离

利用制作脚本为演讲人辨别任务提取伪标记数据的半监督方法在 66 个节目测试集上相对于两个非监督基准模型显示出了 51.7% 的改进。

Aug, 2023

自动字幕直接语音翻译

本论文提出了一种直接自动生成目标语言字幕及相应时间戳的自动字幕模型，与现有的级联模型相比，在提供高质量字幕的同时也具有更高的一致性和维护单一模型的优点。

Sep, 2022

具有自适应视听关注的视觉感知音频字幕

本文提出了一种基于视觉感知的音频字幕生成方法，将来自视频的视觉信息整合到音频字幕系统中，采用音视频关注机制自适应地整合音频和视觉信息，显著提高了音频字幕系统的性能。

Oct, 2022

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了 AVSD 数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

大词汇手语视频的自动密集标注

本文提出了一种基于同义词和字幕 - 手语对齐的简单可扩展框架，用于自动标注手语解释电视广播中的连续手语视频，并利用标注的手语识别模型进行了假标注，从而增加已知和未知类别的标注密度。该方法可将 BOBSL BSL 手语语料库的信心自动注释数量从 670K 提高到 5M，并提供这些注释以支持手语研究社区。

Aug, 2022

自动字幕中消除对剧本依赖性的 SBAAM 方法

直接生成的自动字幕模型填补了依赖于中间文件的不足，通过消除对中间转录的依赖，实现了对多语种、多样化环境下的自动字幕新的最佳性能。

May, 2024

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018

听声辨字：音频导向文本识别

本文提出了一种基于概率音频解码器来实现场景文本识别的方法，可以解决现有方法中存在的增加、删除或替换等编辑错误，并在 12 个现有的规则、不规则、遮挡数据集上对其进行了实验证明；此外，该方法具有较高的泛化性，可以应用于识别非英语文本、未知词汇和口音文本等更加复杂的场景。

Jun, 2023

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

音频 - 视觉场景感知对话的简单基线

本文提出了一种基于数据驱动学习的音视频感知对话基准方法，采用注意力机制从海量传感器中区分实用信号和干扰信号，实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。

Apr, 2019