- 基于上下文的自监督视觉学习:利用环境作为数据来源
环境空间相似性方法(ESS)是一种独特的方法,通过在特定上下文中对自身进行勘探和跟踪,从而使智能体通过对其位置在连贯环境中的追踪来获取技能,ESS 方法在构造对比式学习中提供了历史空间上下文的相似性信号,并通过在模拟的逼真环境中使用图像作为 - 自我监督视觉学习中基于计算的接受者目视着物游戏的解释
本研究使用玩具箱数据集和计算机视觉框架进行自我监督对比学习实验,发现通过学习信号,将单个物体的不同视角赋予相似的表示有助于视觉学习的稳健性,这种性能的提高对于多种图像分类任务来说是可持续的。
- 基于文本引导的视觉基础模型的遥感图像语义分割
本研究集中于遥感领域,通过利用多个基础模型来促进远程 sensing 图像语义分割任务。我们的实验结果表明,该方法在几个广泛使用的远程 sensing 数据集上具有很高的准确性。
- 学习神经声场
本文介绍了神经声学场(NAFs),一种能够捕捉声音在物理环境中传播的隐式函数表示,通过将声学传播建模为一个线性时不变系统,NAFs 能够连续地将所有发送与接收方位置匹配映射到神经脉冲响应函数,从而可以应用于任意声音,同时 NAFs 中学习到 - 强调 YouTube 的高效视觉学习环境中的 AI 注释推荐(AI-EVL)
AI-EVL 是一种注释型学习系统,通过忽略不需要的内容,可以降低带宽使用并与在线学习工具和平台结合使用以丰富其课程。它能够提取富本体信息和多层互动可视化小部件来显示视频字幕文本的相关信息,使学习更加集中,有效。
- ICLR通过判别权重生成建立物体空间的目标追踪
本文提出了一种利用交互学习物体特征的框架,并采用卷积超级网络对每个物体进行编码,以提高标签效率。
- ICCV自然分布偏移下的在线持续学习:基于视觉数据的实证研究
该研究论文提出一种新的基于连续数据流的在线不断学习方法,并建立了一个大规模的在线视觉学习基准测试,研究了梯度下降优化在不断学习中的关键未被观察到的现象,并提出有效的策略来改进深度学习模型的性能。
- ACLE2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练
本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP,其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐,同时通过将目标检测和图像字幕生成任务整合到预训练中,采用统 - ECCV少样本视频物体检测
本篇论文提出了 Few-Shot Video Object Detection (FSVOD) 方法,包括 FSVOD-500 数据集、Tube Proposal Network 和 Temporal Matching Network 两个 - ICCV学习正定矩阵的对数行列式差异
本文提出了一种基于数据驱动的方法学习用于比较对称正定矩阵的相似度度量,以及将其应用于机器学习中的多个标准任务中,取得了良好的性能。
- 创意启发的零 - shot 学习
该研究利用人类创造力领域的启发来模拟无监督学习过程,提出了一种生成视觉特征的方法,名为 Hallucinated Class Descriptions。实证表明该方法成功地应用于 generalized ZSL 以及 AwA2, aPY, - CVPR无遗忘动态少样本视觉学习
该研究提出了一种基于卷积神经网络和注意力机制的少样本视觉学习系统,旨在实现在测试时只使用少量训练数据就能有效地学习新类别,同时不会忘记原先基础类别的模型。经过在 Mini-ImageNet 数据集的测试,该模型在 1-shot 和 5-sh - CVPR缓慢而稳定的特征分析:视频中的高阶时间相干性
本文提出了 “稳态特征分析” 这一新的方法,通过在未标记的序列视频中训练卷积神经网络,利用各种数据集证明本方法在目标、场景和动作识别等方面的有效性,且其特征甚至可以超过传统的监督式预训练方法。
- AAAI算术运算的视觉学习
基于神经网络的端到端可视化学习模型可用非常少的神经元学习数字的加减法运算结果,但乘法等其他运算结果不可学习。