关键词fully-supervised learning
搜索结果 - 4
- 交互感知触发的零样本时空动作检测
本文通过使用预训练的视觉 - 语言模型提取图像和文本特征,以及对这些特征进行建模,最终实现零样本的时空动作检测。实验结果表明,本文的交互模块和提示使得视觉 - 语言特征更好地对齐,从而实现了优秀的检测准确率。
- CTooth+: 大规模牙科锥束计算机体层摄影数据集及对牙体体积分割的基准测试
本文旨在建立一个 3D 牙科 CBCT 数据集 CTooth+,并通过完全监督、半监督和主动学习等方法,评估多种最先进的牙齿体积分割策略,并定义了性能原则。该实验可作为未来基于人工智能的牙科成像研究和临床应用开发的基线和新基准。
- ECCV音视频分割
本文提出音频与视觉分割(AVS)问题,并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法 —— 时间上的像素级音视频交互模块,可以指导视觉分割过程,同时设计了正则化损失函数以鼓励音视频映射的训练,比较了几种现有方法,发现 - 混合时间域自适应的行动分割
通过将问题描述为域适应问题,该研究提出了混合时间域适应模型,以在帧和视频级别特征空间中对齐嵌入特征,并进一步与域注意力机制相结合,以便更有效地进行域适应。在 GTEA、50Salads 和 Breakfast 数据集上验证了该方法目前的有效