- CVPR利用远程监督学习识别过程性活动
本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题,通过远程监督的语言模型方法,基于 wikiHow 的文本数据库自动标注视频中的步骤,并在识别过程中考虑了它们的时间依赖性,实现了较高的泛化性能。
- CVPR学习自表示网络进行子空间聚类
本文提出了一种名为 Self-Expressive Network (SENet) 的新型子空间聚类框架,该框架采用一个设计良好的神经网络来学习数据的自表达表示,该框架不仅可以在训练数据上学习自表达系数,还可以处理外样本数据和大规模的数据集 - 面向物体检测的无锚定位建议生成器
本文提出了一种抛弃传统水平框架结构,利用 Coarse Location Module 生成初步的定位框,然后将其提炼为高质量的定向 proposals 的方法 ——Anchor-free Oriented Proposal Generat - 使用陡峭斜率损失函数学习预测可信度
本文研究了在真实世界的大规模数据集中预测可信度的问题,引入了一种新的陡峭斜率损失函数,来提高预测器的泛化能力,并在 ImageNet 数据集上对其进行了实验和分析。
- ICCV通用跨域检索:跨越分类和领域的概括
本研究提出了 SnMpNet 模型,它使用两种新的 loss,即 Semantic Neighborhood loss 和 Mixture Prediction loss 来进行通用的跨领域检索,实验结果表明该模型在两个大规模数据集上取得了 - MultiBench: 多模态表示学习的多尺度基准
MultiBench 是一个系统性和统一化的基准测试,跨越 15 个数据集,10 种模态,20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程,简化和标准化数据加载,实验设置和模型评估。随着大量的实践证明 - CVPR迈向长型视频理解
本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构,针对大规模数据集进行长型视频理解任务的研究,并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果,同时在 AVA 数据集上也优于可比较的最新研究成果。
- 大规模无监督物体发现
提出了一种新的针对大规模数据集的无监督目标探索(UOD)形式化的排名问题方法,该方法可应用于特征自我学习,并结合各种分布式方法和链接分析,实现了完全无监督的 UOD 流程,在单目标和多目标探索方面表现良好。
- CVPR用于野外大规模人脸识别的动态类队列
研究表明,利用大规模人脸数据集学习辨别性表示形式对实际应用至关重要,但仍存在许多方面的挑战,本论文提出了一种动态类队列(DCQ)来解决计算资源限制和长尾类分布问题,可通过动态选择类和产生类权重来减小计算和算法学习难度,使用大规模数据库在几次 - 划分与对比:自监督学习从未审查的数据中学习
本文研究自监督学习在大规模数据集上的应用,提出了一种基于对比学习与聚类的硬负样本挖掘方法(DnC),在 less-curated 数据集上的预训练,可以显著提高自监督学习在后续任务上的表现效果,并与目前在高度筛选数据集上的最新水平保持竞争力 - CVPR对比度视觉表征学习何时有效?
本文研究了自监督学习在四个不同的大规模数据集上的对比学习方法,通过数据量、数据领域、数据质量和任务粒度,得出了有关成功自监督学习所需条件的新见解,其中包括:(i) 除 500k 张图像外,额外的预训练数据的收益有限;(ii) 添加来自另一个 - Content4All 开放研究手语翻译数据集
本研究的目的是为了解决计算手语研究中缺少大规模数据集的问题,并且分享了六个数据集和相关工具的收集过程以及用于推动未来研究的基准翻译结果。
- CVPR基于图形的人物签名重识别方法
本文提出了一种新的方法,将细节人物描述(属性标签)和视觉特征(身体部位和全局特征)聚合成一个图形,即基于图形的人物签名,并利用图形卷积网络学习人物视觉签名的拓扑结构,并将其集成到多支路多任务框架中用于人物重新识别,并在两个大规模数据集上展示 - CVPR关于视音频检索中的语义相似度
本文提出了一种基于语义相似性的视频检索方法,它允许多个视频和标题被视为同等相关,并且排名的顺序不影响检索性能比较,同时,它还提出了多种估计语义相似性的方法,以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。
- ACLVisualSparta:一种简单到可笑的加权词袋文本图像大规模搜索方法
本文介绍了一种名为 VisualSparta 的基于稀疏变换匹配的 Transformer 模型,旨在实现跨模态信息检索领域中的文本检索图像任务,具有较高准确性和效率,可在大规模数据集中实现实时搜索。
- 面向图表示学习的大规模数据库
研究了图形表示学习的新兴领域,指出了增加新数据集的必要性,并介绍了一个全新的名为 MalNet 的数据库,它是公共图形数据库中最大的,提供了对马尔维尔的恶意软件功能调用图的的大规模本体,这个数据库可以用于机器学习和图形神经网络技术的评估,并 - 基于图卷积的骨架动作识别基准模型:更强,更快,更易理解
本论文提出一种基于图卷积网络(GCN)的高效却强大的基线模型,该模型融合了多输入分支(MIB)、残差 GCN(ResGCN)和全局部分注意力机制(PartAtt)等三个关键组件,能够更加有效地提取具有区分度的骨骼动作特征,并在大规模数据集上 - EMNLP数据复兴:利用不活跃的训练样例进行神经机器翻译
本文介绍了一种利用数据焕发来提高神经机器翻译模型在大规模数据集上的训练效果的方法,该方法需要通过训练一个识别模型,识别出不活跃的数据样本,然后使用一个焕发模型,对样本进行重新标记,最后将焕发后的样本和活跃样本组合来训练最终的神经机器翻译模型 - 潜变量混合的分布鲁棒损失
该研究使用凸优化方法控制给定大小的所有子人群的最坏情况表现,从而提高模型的泛化能力。实证研究表明该方法可在未知子人群中推广。
- ECCV基于 $n$ 参考的显著性预测迁移学习
提出了一种少样本迁移学习的范式来预测缺乏足够数据的新域中的显著性映射,在来自现有大规模数据集的知识迁移方面实现高效率,并且该框架在不同数据集对之间实现了显著性能的提升。