BriefGPT.xyz
Ask
alpha
关键词
audio-visual association
搜索结果 - 2
可解释的视听视频字幕生成尝试
本论文介绍了一个多模态卷积神经网络视频字幕框架,通过引入模态感知模块,探索了视听交互对视频理解的影响,并证明该可解释模型在情况选择时取得了可比较的性能。
PDF
6 years ago
将声音与图像结合以确定视频中的发言者
本文提出了一种音视频关联系统,将音频和视觉信号的信息融合,通过对视频中的统计数据的聚合实现面部和声音的有效关联,无需针对此任务的具体训练数据,并利用音频和视觉流中信息的自然相干性,特别适用于跟踪网络视频中的说话人,通过对真实数据集的实验表明
→
PDF
7 years ago
Prev
Next