- 基于锚点图因式分解的无锚点聚类
通过学习锚图并消除聚类中心初始化的必要性,我们引入了一种名为基于锚图因子分解的无锚点聚类(AFCAGF)的新颖方法,它通过计算样本之间的成对距离来实现。采用此方法,我们改进了模糊 k 均值聚类算法(FKM),并引入了一种新的流形学习技术,消 - 为训练基于语言的目标检测器生成增强的负样本
借助大规模数据和生成模型,我们提出利用负面样本来改进基于语言的开放词汇目标检测,实验结果表明这种方法提高了性能。
- 增强控制功能
通过建立机器学习中的分布泛化与计量经济学中的联立方程模型和控制函数之间的新连接,本研究旨在解决在存在未观测混淆时,训练数据和测试数据不同时的预测问题。我们提出了用于分布泛化的联立方程模型,并引入了增强控制函数(BCF)作为推断目标来成功预测 - 通过条件排列统计有效变量重要性评估
我们提出了条件置换重要性(CPI)的系统方法,通过为复杂机器学习应用中的变量重要性评估提供精确的类型 - I 错误控制,并在大规模数据集和深度神经网络中的实证研究中表现出最高准确性。
- ICCV寻求身份的自监督表征学习用于可普遍适用的人员重新识别
这篇论文旨在使用大规模视频学习一个领域通用的人物再识别表示,不需要任何标注。通过利用大规模无监督数据进行训练,该论文提出了一种身份寻求自监督表示学习方法,以解决数据和标注的问题。该方法构建了正样本对,通过将实例关联建模为最大权重二分匹配问题 - ICCV视觉与语言导航中的数据生成扩展
通过构建大规模数据集,研究了语言引导的视觉导航中各个组成部分对代理性能的影响,并通过简单模仿学习将现有代理的性能推向了一个显著的新高度,成功率达到了 80%,并将在已见和未见环境中导航的泛化差距降低到不到 1%。
- LANISTR:来自结构化和非结构化数据的多模态学习
LANISTR 是一种基于注意力机制的框架,能够学习语言、图像和结构化数据,并通过一种基于相似度的多模态掩蔽损失函数来学习大规模多模态数据中跨模态的关系。在两个具有挑战性的公开数据集 MIMIC-IV 和 Amazon 产品评论上,与现有的 - 深度跨模态永生哈希
本文提出了一种创新的深度生命周期跨模式哈希方法,通过直接训练增量数据以更新哈希函数,设计生命周期学习策略以代替重复训练哈希函数,引入多标签语义相似性来监督哈希方法学习,并在基准数据集上进行实验验证,结果显示,该方法具有相对于最新的交叉模型哈 - AGAD: 对抗生成异常检测
该研究提出了一种基于对抗生成的异常检测方法(AGAD),该方法利用大规模正常数据生成上下文对抗信息生成伪异常数据,解决了异常数据获取困难的问题,显著提高了半监督和有限监督情况下的检测准确率。
- CVPRSynthVSR: 利用合成监督扩大视觉语音识别的规模
本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR,利用大规模合成数据进行半监督学习,在公开数据集上实现了最新的性能。
- 大规模数据的自权重多视角聚类
本文介绍了一种自动加权的多视角聚类算法,使用矩阵分解来解决维度固定的一致系数矩阵和视角特定基矩阵的限制,并采用六步交替优化算法进行优化,最终的聚类结果表现出优异的性能。
- NIPSFacebook AI 图像相似度挑战赛的全局与本地双重检索解决方案
本研究提出了一种多分支检索方法,通过组合全局描述符和局部描述符来应对大规模数据以及图像复制攻击的挑战,其中包括丰富的数据增强和自监督学习等优化策略,并引入了鲁棒性较强的 SIFT 特征和 GPU Faiss 进行局部检索,在使用 KNN 匹 - 图像字幕生成的视觉语言预训练规模化提升
本研究介绍了 LEMON,一个大规模图像描述生成模型,探究了基于视觉 - 语言预训练的 transformer 模型在图像描述生成中的可扩展性,并使用大量数据和不同训练方法对其进行了实验和分析,取得了多个数据集上的最新成果。
- 基于集合依赖聚合的选择预测
提供选择的替代方案是许多在线平台的重要组成部分,因此准确预测选择是其成功的关键。本文提出了一种学习框架,用于预测选择,具有准确性、多功能性、理论基础和良好的可扩展性。我们的建模要点是为了解释人类的选择,预测模型必须捕捉特定的集合相关的不变性 - 自监督视觉表示学习的扩展和基准测试
本文探讨了自监督学习的可扩展性,并在大规模数据集上评估了两种流行的自监督学习方法,并发现当前自监督学习方法没有充分利用大规模数据,且无法学习到有效的高层语义表示。同时,介绍了 9 个不同数据集和任务的自监督学习基准测试,必要时开展可比较的评 - KDD用于 Web 规模推荐系统的图卷积神经网络
本文描述了一种在 Pinterest 上开发和部署的大规模深度推荐引擎 PinSage,它结合了高效的随机游走和图卷积来生成节点嵌入,并且使用数据驱动方法对其进行了训练。与先前的方法相比,PinSage 可以使计算更加高效并在离线指标、用户 - ACL基于通用句子表示的自动机器翻译评估度量
通过利用大规模数据训练句子表示方法,该论文研究了通用句子表示方法在机器翻译质量评估中的应用,并实现了仅基于句子表示特征的 WMT-2016 数据集的最先进性能。
- 针对高效人员再识别的对抗二进制编码
本研究提出了一种简单而有效的基于对抗学习的二进制编码框架(ABC)用于高效实现人物重识别任务,通过配备深度三元组网络进一步增强所提取的二进制码的可辨别性,同时在端到端的方式下优化 ABC 和三元组网络,实验结果显示该方法在三个大规模的人物重 - EndNet: 稀疏自编码器网络用于端元提取和高光谱分解
本文提出了一种基于两阶段自编码器网络的新型端元提取和高光谱反混合方案 EndNet,其结构完全优化和重组,通过引入额外的层和投影度量(即光谱角度距离(SAD)而不是内积)得到最优解,最后通过基于随机梯度的方法来扩展其可处理规模,该方法得到显 - 大规模混合模型学习的速写
本文提出了一种压缩学习框架,通过数据的限制集来估计模型参数,并演示了该方法在高斯混合模型和说话人验证任务中的成功应用,以及它与随机特征的近似希尔伯特空间嵌入方法之间的联系。