BriefGPT.xyz
大模型
Ask
alpha
关键词
unlabelled videos
搜索结果 - 3
多模态视频字幕生成的端到端生成预训练
提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT),通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标,以从生图像和录制语音直接生成说明的端到端模型来有效地
→
PDF
2 years ago
无监督室内深度估计的自校正网络
提出了一种基于自动矫正网络的数据预处理方法,解决了手持场景下旋转运动对单视角深度估计的干扰问题,并针对不同数据集验证了该方法的有效性及通用性。
PDF
4 years ago
CVPR
无监督学习视频中的可解释关键点
本文提出了 KeypointGAN 方法,通过从未标注的视频和基于弱领域先验知识的学习,仅使用单个图像就可以识别物体的姿态,利用一个新的物体的双重表示方法,并且这种方法可以在不使用标注图像的情况下获得最新的成果。
PDF
5 years ago
Prev
Next