- AtP*:一种将 LLM 行为局部化到组件的高效可伸缩方法
Activation Patching 是一种直接计算行为因果归因于模型组件的方法,但全面应用需要成本与模型组件数量线性增加,对于 SoTA 大型语言模型来说成本过高。我们调查了 Attribution Patching(AtP),这是一种 - 针对虚假阴性和类别不平衡的时间序列对比学习
利用图结构和少标记数据执行半监督一致性分类,从而增强少数类的代表性,解决时间序列对比学习中的假阴性和类别不平衡问题。
- 视觉 - 语言预训练中的虚假负样例转换与平滑化
我们提出了一种名为 COSMO 的方法,通过对虚假负样本进行处理,尤其在难样本采样方面有很强的能力,来解决视觉语言预训练 (VLP) 中虚假负样本的问题。我们的方法基于最近开发的 GRouped mIni-baTch 采样 (GRIT) 策 - 针对召回导向的神经信息检索的相关性反馈策略
通过基于 BERT 的密集向量搜索产生的相关排名,并基于累积求和的查询和选择的嵌入,我们提出了一种更注重召回率的减少审核工作量的方法,该方法可与基线方法相比,以固定的召回目标为基础,减少 17.85% 至 59.04% 的审核工作量。
- ICCVFocalFormer3D:聚焦于 3D 物体检测的困难实例
通过使用多阶段的 Hard Instance Probing(HIP)方法和 FocalFormer3D 模型,本研究探索并改进了三维物体检测中的误检问题,提高了难度较大物体的识别和检测效果。
- MM消除假阴性提升图像 - 文本匹配
本研究提出了一种新的 False Negative Elimination(FNE)策略,通过采样选择负例来减轻图像 - 文本匹配中的错误负例问题,并在 Flickr30K 和 MS-COCO 上的实验证明了该策略的优越性。
- ACL远距监督命名实体识别负例更好的采样
本文提出了一种简单直接的方法,通过选择与所有正样本相似度高的负样本来训练,以提高四个远程监督 NER 数据集的性能表现,并且分析表明有必要区分真负样本和假负样本。
- ACL利用伪造的图像标题进行多模态摘要
本文从互信息优化的角度研究了负样本对视觉语言预训练中交叉模态对比学习的影响,并提出了一种渐进式改进的交叉模态相似度对比学习策略,在理论指导下实现了对 (部分) 假负例样本有益和有害效应的平衡,这种方法在四个下游交叉模态任务中表现良好。
- 通过交叉模态相似度调节的对比学习进行视觉语言预训练
本文从互信息(MI)优化的角度研究了预训练中视觉语言交互 (VLP) 面临的(部分)误负样本的挑战,并提出了一种被逐步优化的跨模态相似性约束下的对比学习策略来更加准确地优化图像 / 文本锚点与其负样本的 MI,从而在四个下游跨模态任务中具有 - 针对样本特定的去偏方法以获得更优秀的图文模型
本文介绍了一种基于样本特定偏差校正的自监督学习方法,用于改善不均匀假负面样本导致的图像文本数据的质量问题。经过实验证明,此方法在包括医学应用在内的多种数据集上都取得了比传统方法更好的效果。
- EMNLP重访 DocRED -- 在关系抽取中解决假阴性问题
本文针对 DocRED 数据集中占主导地位的漏报问题进行了研究,并通过重新注释数据集来修复该问题,重新命名为 Re-DocRED 数据集,同时实验结果表明使用 Re-DocRED 数据集进行训练和评估可以获得 13 个 F1 分数的性能提升 - 黑匣子里有什么?目标检测器内部的假阴性机制
该研究通过对两种物体检测器的结构和数据集的分析,提出了 “五种假负面机制”,并探究了 Faster R-CNN 和 RetinaNet 在计算机视觉基准数据集和机器人应用中的 “假负面机制” 显著不同的原因。
- EMNLP知晓假阴性:一种远程监督关系抽取的对抗训练方法
本文提出一种两阶段的远程监督关系抽取方法,利用深度神经网络的记忆机制和对抗训练解决当前知识库不完整所带来的假阴性问题,并在两个流行基准数据集上验证了方法的有效性。
- ICLR对比学习的增量式虚假负例检测
本研究提出了一个新的自监督对比学习框架,该框架在训练过程中动态检测错误负样本并加以删除,在多个基准测试中表现优于其他自监督对比学习方法。
- 重新审视远程监督关系抽取的负数据
本文提出了一种名为 ReRe 的管道方法,通过句子级别的关系检测和主谓对象提取来实现样本有效训练,将关系抽取问题转化为正无标记学习任务,缓解了负样本引起的误差问题,实验结果表明,该方法能够持续超越现有方法并且即使在学习大量的假阳性样本时仍保 - 利用假阴性消除增强对比自监督学习
提出一种用于自监督对比学习的方法,包括 false negative 的识别和消除、对抗等策略以及对该问题进行的严格评估。该方法在 ImageNet 数据集上取得了一定的成果,无标签数据集下可以在 1000 个语义类中以 40% 的精度正确 - AAAI对抗模仿学习中防止假反例
通过对 Adversarial Imitation Learning 的训练信号做出调整,可以通过减少 False Negatives 的数量,从而在 BabyAI 环境中提高模型的样本效率。
- 使用部分标注的训练数据进行命名实体识别
研究了使用部分标记数据进行命名实体识别的问题,用迭代算法通过识别假负标签减小其权值,训练带有偏重的 NER 模型,取得 8 种语言的实验结果,并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。
- VulDeePecker: 基于深度学习的漏洞检测系统
本文深入研究了利用基于深度学习的方法来检测软件漏洞问题,提出使用代码小部件作为软件程序的表示和基于此实现了 VulDeePecker 安全检测系统,实验结果表明,该系统可以通过较少的假阴性率来更好地检测到软件漏洞。