BriefGPT.xyz
Ask
alpha
关键词
temporal transformer
搜索结果 - 4
MSSTNet:用于动态面部表情识别的多尺度时空卷积 - 变换网络
通过提出多尺度时空 CNN-Transformer 网络(MSSTNet),本研究在人脸动态表情识别领域中取得了最先进的结果,该方法利用多尺度空间和时间信息实现了对面部表情的准确分类。
PDF
3 months ago
融合多种模态信息的统一视频物体分割时序变换器
本文提出了 MUTR,通过统一框架和两种策略,实现了同时支持文本和音频引用的视频对象分割,实现了视频内部各帧的时序交互,从而提高了语义对齐和目标对应的准确性。MUTR 在多个数据集上都达到了更好的 J&F 性能。
PDF
a year ago
一张图片抵 16x16 字,一段视频抵多少字?
本文提出了一种使用全局注意机制的时间变换器,以更好地利用每个帧的显着信息来显著减少推理时间和数据帧,从而提高输入效率,在 Kinetics 数据集上实现了 SotA 结果。
PDF
3 years ago
EMNLP
HERO: 视频 + 语言全方位表示的分层编码器预训练
HERO 是一个用于大规模视频 + 语言综合表示学习的新框架,能够通过跨模态变换器捕获视频帧的本地上下文和全局上下文,并经过多模态融合进行编码;在标准的遮蔽语言建模和遮蔽帧建模目标的基础上,还设计了两个新的预训练任务:视频 - 字幕匹配和帧
→
PDF
4 years ago
Prev
Next