观看、聆听和识别:基于字符的音频视觉字幕
本文提出了一种基于视觉感知的音频字幕生成方法,将来自视频的视觉信息整合到音频字幕系统中,采用音视频关注机制自适应地整合音频和视觉信息,显著提高了音频字幕系统的性能。
Oct, 2022
本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了 AVSD 数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对话历史)才能在该数据集上取得最佳表现。
Jan, 2019
本文提出了一种基于同义词和字幕 - 手语对齐的简单可扩展框架,用于自动标注手语解释电视广播中的连续手语视频,并利用标注的手语识别模型进行了假标注,从而增加已知和未知类别的标注密度。该方法可将 BOBSL BSL 手语语料库的信心自动注释数量从 670K 提高到 5M,并提供这些注释以支持手语研究社区。
Aug, 2022
本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子,我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别,并研究唇语识别在有噪音的情况下与音频识别的互补性,同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC,我们建立的模型在实验中的表现均超过了以前的相关工作。
Sep, 2018
本文提出了一种基于概率音频解码器来实现场景文本识别的方法,可以解决现有方法中存在的增加、删除或替换等编辑错误,并在 12 个现有的规则、不规则、遮挡数据集上对其进行了实验证明;此外,该方法具有较高的泛化性,可以应用于识别非英语文本、未知词汇和口音文本等更加复杂的场景。
Jun, 2023
本文提出了一种基于数据驱动学习的音视频感知对话基准方法,采用注意力机制从海量传感器中区分实用信号和干扰信号,实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。
Apr, 2019