BriefGPT.xyz
Ask
alpha
关键词
vip
搜索结果 - 3
逐帧思考:使用视频填充和预测评估视频思维链
为了提高视频推理的能力和降低处理数百或数千帧的计算复杂度,我们提出了 VideoCOT 的新研究方向,旨在利用视觉语言模型的多模式生成能力对视频关键帧进行增强。我们引入了 VIP 数据集,其中包含各种现实生活视频和场景描述,以及两个新的视频
→
PDF
a year ago
ICLR
VIP:通过价值内隐预训练实现通用视觉奖励和表示
本研究提出了一种称为 VIP 的表示自学习方法,通过自监督目标条件强化学习的方式从未标注的人类视频中生成稠密的,可平滑的奖励函数,克服机器人数据获取上的困难,并在实验中表现出优异的表现。
PDF
2 years ago
S$^2$-MLPv2: 提升空间 - 移位 MLP 视觉模型架构
本研究致力于改进 S^2-MLP 视觉骨干,将特征图沿通道扩展并将其分成若干部分,然后对分割的部分进行不同的空间变换操作,同时利用分组注意力操作来融合这些分割的部分。采用更小的尺度补丁和金字塔结构提高图像识别的准确性,我们称之为 S^2-M
→
PDF
3 years ago
Prev
Next