temporal transformer | BriefGPT

关键词temporal transformer

搜索结果 - 4

MSSTNet：用于动态面部表情识别的多尺度时空卷积 - 变换网络
通过提出多尺度时空 CNN-Transformer 网络（MSSTNet），本研究在人脸动态表情识别领域中取得了最先进的结果，该方法利用多尺度空间和时间信息实现了对面部表情的准确分类。
PDF3 months ago
融合多种模态信息的统一视频物体分割时序变换器
本文提出了 MUTR，通过统一框架和两种策略，实现了同时支持文本和音频引用的视频对象分割，实现了视频内部各帧的时序交互，从而提高了语义对齐和目标对应的准确性。MUTR 在多个数据集上都达到了更好的 J＆F 性能。
PDFa year ago
一张图片抵 16x16 字，一段视频抵多少字？
本文提出了一种使用全局注意机制的时间变换器，以更好地利用每个帧的显着信息来显著减少推理时间和数据帧，从而提高输入效率，在 Kinetics 数据集上实现了 SotA 结果。
PDF3 years ago
EMNLPHERO: 视频 + 语言全方位表示的分层编码器预训练
HERO 是一个用于大规模视频 + 语言综合表示学习的新框架，能够通过跨模态变换器捕获视频帧的本地上下文和全局上下文，并经过多模态融合进行编码；在标准的遮蔽语言建模和遮蔽帧建模目标的基础上，还设计了两个新的预训练任务：视频 - 字幕匹配和帧
PDF4 years ago