BriefGPT.xyz
大模型
Ask
alpha
关键词
video information
搜索结果 - 4
外科手术视频语义分割的时空网络
在手术视频中进行语义分割在术中导航、术后分析和手术教育方面有应用价值。我们提出了一种用于建模视频时间关系的新架构,通过改善帧之间的时间一致性以提高视频语义分割精度,并在两个数据集上验证了其性能提升。
PDF
a year ago
多模态自监督学习通用音频表示
通过使用多模态框架,在训练音频表征时利用视频信息和加入混合样本的数据增强,本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。
PDF
3 years ago
ACL
视频辅助的无监督语法归纳
本研究旨在探索利用视频信息进行语法归纳,通过提取丰富的视频特征,使用多模混合概率上下文无关文法模型(MMC-PCFG)进行端到端的无监督语法归纳,实验结果表明该模型在未标注的文本和视频中表现出色。
PDF
3 years ago
ECCV
野外视觉语音识别零样本关键词检测
本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题,并使用端到端的多层神经网络架构,使用语音图形编码器解决了此问题,该模型在 LRS2 数据集上取得了非常有前途的结果。
PDF
6 years ago
Prev
Next