- 从过拟合到稳健性:基于数量、质量和多样性的负样本选择在图对比学习中的应用
本研究提出了一种新的 Cumulative Sample Selection (CSS) 算法,将其集成到名为 NegAmplify 的图对比学习框架中,通过综合考虑负样本的质量、变化和数量来解决图对比学习范式中的过拟合问题,在九个图节点分 - 利用负样本挖掘提升蛋白质语言模型
通过在蛋白质对应的网络中训练转化器模型以提取负样本中的宝贵见解,我们引入了一种创新的方法来提高大型语言模型在蛋白质表示学习领域的性能,这种先进的策略不仅增强了性能,还可以反映出蛋白质所表现出的微妙的生物行为,与蛋白质相互作用等传统生物机制相 - ACLKDMCSE: 知识蒸馏多模态句子嵌入与自适应角度边界对比学习
本研究提出了 KDMCSE,一种基于知识蒸馏的多模态对比学习方法,通过利用教师模型的知识来增强多模态表示的区分性和泛化能力,有效地检测和消除有噪声和错误的负样本,同时引入了 AdapACSE,一种新的自适应角度间隔有监督对比学习方法,增强了 - 消除否定性:通过分布偏好优化实现无需人工正例样本的对齐
通过利用人工标注的负样本,提出了一种基于分布差异优化的方法来使大型语言模型朝向人类偏好对齐,以减少有害信息的生成。实验证明该方法在生成质量、有害信息数量和训练稳定性方面均优于最新基线模型。
- WSDM重新思考和简化引导式图潜变量
本文介绍了一种基于实例级去相关视角的简洁而有效的图对比学习框架(SGCL),在各种图基准测试中展现出与更少参数,更低时间和空间成本以及显著的收敛加速相比具有竞争性的性能。
- 通过对抗训练学习全局优化的语言结构
提出了一种针对文本的对抗训练策略,通过扰动自回归模型生成的文本来生成负样本,并证明该策略可以显著提高离散能量基模型的生成质量。
- 重新思考对比学习的样本选择:潜在样本的挖掘
对比学习中通过综合考虑正负样本以及使用软硬权重策略来挖掘样本,分析并挖掘接近正样本的潜在负样本,相较于传统的自监督方法,该方法在 CIFAR10、CIFAR100 和 TinyImagenet 上分别达到了 88.57%、61.10% 和 - 基于能量的异常检测模型:一种流形扩散恢复方法
提出了一种新的基于能量模型 (EBM) 的异常检测方法,利用数据中的低维结构。该算法首先沿着近似训练数据集的低维流形扰动数据点,然后训练 EBM 最大化恢复原始数据的概率。通过从靠近流形的不同分布生成负样本,转化为近似流形的负样本高度信息丰 - 基于能量的语音合成模型
这篇论文描述了如何使用基于能量的模型(EBMs)通过噪声对比估计训练,并通过 Langevin Markov Chain Monte-Carlo(MCMC)进行采样,从而扩展了非自回归模型在语音合成中的应用。在 LJSpeech 数据集上的 - DropMix:更好的图形对比学习与更困难的负样本
在图对比学习中,我们提出了一种名为 DropMix 的新方法,用于合成更加困难的负样本,通过选择和混合难负样本的表示维度,减少信息丢失,从而提升图对比学习性能。
- 跨範疇聯合實體關係提取多任務學習中處理負樣本
该研究论文介绍了一种基于跨度的多任务实体 - 关系联合提取模型,通过多任务学习和位置信息的引入,有效地减轻了负样本对模型性能的负面影响,同时在广泛应用的公共数据集 CoNLL04、SciERC 和 ADE 上取得了令人称赞的 F1 得分。
- 历史学习:面向任务的模型对比学习用于图像恢复
通过自适应生成负样本的创新方法,我们提出了一种称为 “根据历史学习” 的适应性负样本生成方法,名为 Self-Prior guided Negative loss for image restoration (SPNIR)。我们的方法是任务 - 追踪中使用负样本进行高效训练
通过使用分布式头和目标指示令牌,以及平衡负样本和正样本的训练过程,本研究介绍了一种更高效的训练策略来减轻过拟合并降低计算要求,同时在性能上优于现有方法。
- SUVR: 一种基于搜索的无监督视觉表示学习方法
提出了一种基于搜索的无监督视觉表征学习方法(SUVR),通过构建图像数据集图形并采用图形遍历定位相似图像,同时确保负样本可以从全数据集中获取,从而在无监督嵌入学习上显著优于现有方法。
- ACL远距监督命名实体识别负例更好的采样
本文提出了一种简单直接的方法,通过选择与所有正样本相似度高的负样本来训练,以提高四个远程监督 NER 数据集的性能表现,并且分析表明有必要区分真负样本和假负样本。
- CVPR人类辅助下的现实图像超分辨率真实数据生成
通过人为指导的生成方案,我们成功训练出更具感知质量和更少噪点的实际图像超分辨率模型,该方案包含图像增强模型、人工标注的 GT 生成、负样本标注以及一种新的损失函数。
- 弱监督音视频来源定位的深入探究
本文提出了一种新的视听源定位方法,通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。
- ECCV负样本数量很大:利用难度距离弹性损失进行再识别
本文提出了一种动量关联(MoReID)框架,该框架使用大量负样本用于一般的重新识别任务,并提出了 Hard-distance Elastic loss(HE 损失)来最大化利用负样本集,实现了在三个重新识别基准测试中最先进的准确性。
- WWW为图对比学习生成反事实难负样本
提出了一种基于对抗样本生成机制的无监督图学习方法 CGC,它能够让模型获取高质量的正负样本对,避免了传统无监督学习方法中出现的 False Negative 问题,其在多个数据集上与传统无监督学习方法和一些 SOTA 图对比学习方法相比实现 - 对比学习中更多的负样本一定会带来伤害吗?
本文研究噪声对比估计中负样本数量与下游分类性能的关系,并在简单理论模型中表明,由于采样底层潜在类所导致的 “collision-coverage” 权衡,负样本数量不会影响(人口)对比损失所优化的表示。同时,给出了我们框架中最优表示的结构特