BriefGPT.xyz
Ask
alpha
关键词
audio modality
搜索结果 - 3
AKVSR: 基于压缩预训练模型的音频知识增强的视觉语音识别
提出了一种基于音频知识的视觉语音识别框架(AKVSR),通过使用音频模态来补充视觉模态中不足的语音信息,利用预训练的大规模音频模型编码丰富的音频知识,并通过量化舍弃非语言信息从而将语言信息保存在紧凑的音频存储器中,并包括能够从紧凑的音频存储
→
PDF
a year ago
EMNLP
MAST: 多模态抽象摘要生成与三模态分层注意力
本文提出了 MAST,一种新的多模态抽象文本摘要模型,它利用来自文本、音频和视频三种模态的信息。MAST 通过让模型更多地关注文本模态来解决从音频模态中提取信息的有用性和挑战,并在 How2 数据集上在多模态语言理解方面以 2.51 分的内
→
PDF
4 years ago
CVPR
多模态密集视频字幕
本文提出了一种新的密集视频字幕方法,它能够利用任何数量的多模态信息来描述事件,并使用自动语音识别系统获得音频和语音模态的文本描述,在将其视为单独的输入与视频帧和相应的音轨一起使用,并利用最近提出的 Transformer 体系结构将多模态输
→
PDF
4 years ago
Prev
Next