BriefGPT.xyz
大模型
Ask
alpha
关键词
image and video
搜索结果 - 3
使用二进制球面量化对图像和视频进行令牌化
提出了一种新的基于转换器的图像和视频分词器,使用二值球面量化实现。BSQ 将高维视觉嵌入投影到低维超球面上,然后应用二值量化。我们的分词器使用变长视频输入的转换器编码器和解码器,通过简单的分块因果掩蔽实现。基于此的 BSQ-ViT 在图像和
→
PDF
23 days ago
视频共定位问题的新型 Frank-Wolfe 算法变体
该研究论文提出了提高图像和视频共定位问题求解效率的新型 Frank-Wolfe 算法,并通过数值实验验证了所提算法的高效性,其中通过在 YouTube-Objects 数据集上的实现将所提方法与 Wolfe 差值进行了比较。
PDF
a year ago
对比多视角编码
本文研究了一个强大的表示形式,该表示形式对场景的多视图和不完整信息进行建模,通过多视图对比学习来提取多个视角得到的公共信息,该方法优于基于视图交叉预测的选择,经过检验实现了最先进的图像和视频无监督学习基准结果。
PDF
5 years ago
Prev
Next