- 通过自适应对比三元损失增强多语言中的成语表示
本文提出了一种采用三元损失、自适应对比学习和重采样挖掘器来建立一个适用于训练语言模型的成语感知的学习目标的方法,用于有效地对成语性进行建模,在 SemEval 挑战赛中获得了显著的性能提升。
- CVPR视频帧重复(RoVF)方法用于非洲狐群体重新识别
使用基于 Perceiver 架构的循环头部的方法(RoVF),利用视频剪辑逐次构建嵌入。在 Wellington 动物园收集的浣熊数据集上测试,我们的方法实现了 49% 的首位再识别准确率,高于最佳 DINOv2 模型(42%)。
- KDDSEFraud:基于图解释掩码学习的自解释欺诈检测
提出 SEFraud,一种新颖的基于图的自解释欺诈检测框架,通过利用可学习的特征掩码和边缘掩码,从信息丰富的异构类型交易中学习表达能力强的表示,采用新的三元组损失增强掩码学习的性能,演示了的效果。在中国工商银行的生产环境中部署并提供可解释的 - I2CKD:用于语义分割的课内和课间知识蒸馏
这篇论文提出了一种针对图像语义分割的新型知识蒸馏方法,称为 Intra- and Inter-Class Knowledge Distillation(I2CKD)。该方法的重点是捕捉和转移教师(笨重模型)和学生(紧凑模型)的中间层之间的知 - 图像 - 文本匹配中的样本对语义主动挖掘
提出了一种新的图文匹配模型,叫作主动挖掘样本对语义图文匹配模型 (AMSPS),该模型采用多样化的学习模式使模型更加关注无法处理的负样本,从未注释的项目中主动挖掘更多隐藏的相关语义表示,大大提高了模型的性能和泛化能力。在 Flickr30K - 使用身体部位外貌进行玩家重新识别
我们提出了一种神经网络架构,用于学习足球运动员再识别的身体部位外观。我们的模型包括一个双流网络(一个用于外观地图提取,另一个用于身体部位地图提取)和一个双线性池化层,用于生成和空间汇聚身体部位地图。我们的模型通过将相应的局部外观和身体部位描 - 图形自对比表示学习
本文提出了一种名为 GraphSC 的新型图自我对比框架,它使用图自身通过图增强函数生成正负样本,并使用 Hilbert-Schmidt 独立准则对表示进行分解并引入掩蔽自我对比机制以更好地区分正负样本,同时通过显式减小锚点和正样本之间的绝 - MM消除假阴性提升图像 - 文本匹配
本研究提出了一种新的 False Negative Elimination(FNE)策略,通过采样选择负例来减轻图像 - 文本匹配中的错误负例问题,并在 Flickr30K 和 MS-COCO 上的实验证明了该策略的优越性。
- 检索任何人:一项带指导的通用人员再识别任务
本文提出了一种新的人物 ReID 任务,即 instruct-ReID,该任务要求根据给定的图像或语言指令检索图像,提出了一个基于大规模 OmniReID 基准数据集和自适应三元组损失的基线方法来促进在这个新场景下的研究,实验结果表明,基于 - 代理市场订单的对比学习表示
利用 Euronext 提供的 CAC40 数据集,本文构建了一个无监督学习模型,通过三元组损失函数,有效地学习了代理市场订单的表示。通过获得此学习表示,我们能够在代理订单的学习表示向量上使用 K 均值聚类算法来识别每个聚类中的不同行为类型 - 一种包含三元组折叠的公平分类器
本文研究三元损失函数的行为,表明在随机三元组选择的情况下,当三元损失函数的边缘大于潜空间中两点之间的最大距离时,可以利用其崩溃现象来限制机器学习模型所创造和长期保持的偏见,从而得到公平的分类器。
- 用于设备上关键词识别系统自定义的 Few-Shot 开放集学习
本研究针对 KeyWord Spotting 的应用场景,提出了基于 Deep Learning 和 Few-shot Learning 的开放式分类方法,并通过使用三元组损失训练编码器,实现了较高的精度和较低的未知数据虚警率。
- 通过辅助可学习目标编码改善深度表示学习
这篇论文介绍了一种新的可学习目标编码方法作为深度表征学习的辅助正则化,该方法能够增加表征空间中的类间间隔,以及同时保持学习目标编码的语义一致性,从而提高不平衡数据下的表征学习性能。
- STIR: 用于图像检索后处理的孪生 Transformer
该研究提出了一种基于三元损失的简化模型和一种用于图像检索的新方法 STIR,它采用注意力机制在像素级别上直接比较查询图像和候选图像,不需要全局 / 局部特征提取,能够在标准图像检索数据集上定义新的技术状态。
- CVPR利用未标记的照片提高细粒度的 SBIR
本文提出了一种先进的细粒度基于草图的图像检索方法,通过两个关键问题的解决方案实现了超过之前最新方法约 11%的提高:在感知空间几何方面充分强制执行标准三元组损失及使用预先训练的教师和知识蒸馏技术来充分利用图像数据。
- 高分辨率图像检索中基于 Triplet-loss 扩张残差网络的表示学习
本文提出了一种使用三元组损失(triplet loss)的卷积神经网络方法,该方法采用膨胀残差卷积神经网络(dilated residual convolutional neural network)提取高分辨率表示,并通过广义均值池化(G - 使用人工神经网络探究依赖于海马的任务中场景感知的神经表示
该研究通过使用三元组损失训练深度神经网络,使其学习场景感知任务和无监督的目标分割,在编码和解码中使用分解的潜在空间,实现在视角变换时实现场景的转换和重建。
- AAAI利用等距逼近定理对硬负样本挖掘的数学证明
本文讨论了利用等距逼近理论解决深度度量学习中 Triplet Loss 网络崩塌问题以及 Hard Negative Mining 的理论依据,并提出了未来避免网络崩塌的 Hard Negative Mining 方法。此理论还可拓展至其他 - 自监督单目深度估计:解决边缘膨胀问题
本论文通过重新设计面向自监督单目深度估计(MDE)模型的基于贴片的三元组损失以减轻普遍存在的边缘膨胀问题,并利用两种新策略,分别基于所有负样本进行 min. 操作和在原始三元组中将锚点 - 正样本距离和锚点 - 负样本距离分离,取得了前所未 - 一种多阶段多码本的 VQ-VAE 方法实现高性能神经 TTS
提出一种多阶段、多码本(MSMC)方法来高效实现神经 TTS 合成,该方法使用基于向量量化的变分自编码器(VQ-VAE)编码语音训练数据的 Mel 频谱图,并通过多阶段逐渐进行下采样,将它们量化为具有不同时间分辨率的多个 MSMC 表示,同