关键词visual perception tasks
搜索结果 - 6
- Fibottention: 多头多视线接纳的初级视觉表征学习
通过引入 Fibonacci 序列,将 Fibottention 机制嵌入多种视觉任务的 Transformer 架构中,可以在保持计算开销较低的同时,显著提升图像分类、视频理解和机器人学习任务中 ViT 及其变体的性能。
- Zippo:将颜色和透明度分布压缩成单个扩散模型
Zippo 是一个统一框架,通过将颜色和透明度分布压缩成一个扩展的 RGB 图像和 alpha 图的联合表示,实现了从 Alpha 图像生成 RGB 图像和从输入图像预测透明度的功能,同时提供有效的文本条件透明图像生成,并展示了 Matte - 利用扩散模型和元提示进行视觉感知
通过引入可学习的嵌入(元提示)来利用扩散模型解决视觉感知任务,我们的方法在深度估计和语义分割任务上取得了新的性能记录,并在 ADE20K 的语义分割和 COCO 数据集的姿态估计等方面达到了与最先进方法相媲美的结果,展示了其稳健性和多功能性 - InternVL:扩展视觉基础模型并对通用视觉语言任务进行对齐
通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到 60 亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
- 看到他人,发现自己:多任务检测自身失败
本文提出一种基于关注机制的多任务联合失败检测方法,该方法能够评估多个视觉感知任务在图像不同区域的预测准确率和失效率,利用监督式多任务不确定性估计及其对应的预测误差,实现更准确的预测误差估计。
- 计算机视觉中的众包
本篇论文调查了计算机视觉中使用众包方法进行数据标注的类型,并讨论了一些有效的数据采集界面和工作流设计决策,以及智能选取最重要的数据实例进行注释的策略,最后探讨了众包在计算机视觉领域的未来发展。