基于支持集的跨监督视频 grounding

ICCVAug, 2021

Support-Set Based Cross-Supervision for Video Grounding

Xinpeng Ding, Nannan Wang, Shiwei Zhang, De Cheng, Xiaomeng Li...

TL;DR本文提出了一种支持集合基的跨监督 (Sscs) 模块来改进现有的视频文本关系模型技术，该模块由辨别对比目标和生成描述目标组成，利用 support-set 概念加强互动学习，并在三个具有挑战性的数据集上获得了竞争性的结果。

Abstract

Current approaches for video grounding propose kinds of complex architectures to capture the video-text relations, and have achieved impressive improvements. However, it is hard to learn the complicated multi-modal rela

video grounding multi-modal relations support-set cross-supervision contrastive learning

发现论文，激发创造

对比即记忆：语义邻居检索增强的归纳式多模态知识图谱补全

提出了一种基于语义邻居检索增强的归纳式多模态知识图谱补全框架 CMR，通过对多模态查询实体对的文本 - 视觉和文本 - 文本相关性进行统一的交叉模态对比学习，增加有助于语义邻居的相似性，然后显式记忆知识表示以支持语义邻居检索，并在测试时通过插值将最近的语义邻居与查询实体的相似性分布相结合以增强最终预测，实验证明了 CMR 在三个归纳式多模态知识图谱补全数据集上的有效性。

Jul, 2024

数据高效无监督表示学习的多粒度对比

本研究提出了一种新颖的多粒度对比方法（MGC），通过构建细致的多粒度对应关系和对比学习，在不使用大规模数据集的情况下，显著优于现有的基准方法，在目标检测、实例分割、场景解析、语义分割和关键点检测等广泛下游任务中展现出数据高效性和优秀的表示迁移性能。

Jul, 2024

增强旅行决策：个性化评论排名中的对比学习方法

本文提供了一个来自知名在线旅行平台的新颖的真实客户评论数据集，总计超过 200 万条评论来自 5 万个不同的住宿场所。并且，我们提出了一种创新的个性化评论排序方法，该方法采用对比学习来复杂地捕捉评论与其相关评论者的情境信息之间的关系。通过全面的实验研究，我们证明我们的方法在所有报告的指标上超过了几个基准线。通过比较分析，我们展示了我们的方法在提升个性化评论排序中的有效性。我们的研究的意义超越了旅行领域，在其他需要个性化评论排序的重要领域，如在线电子商务平台，也具有潜在的应用。

Jun, 2024

基于错误学习的 LLM 教学：自动化模型改进

该研究介绍了创新的 “LLMs 作为教师” 的框架，利用先进的大型语言模型（LLMs）自动增强较小目标模型的训练。采用 “学习错误” 理论启发，该框架使用教师 LLM 细致分析目标模型中的具体错误，促进有针对性和高效的训练周期。通过 “学习错误” 和 “对比学习从错误中学习”，该框架实施了两种策略，分别关注错误响应以个性化训练数据，并分析正确和错误响应以更深入理解错误。使用多个开源模型进行的实证研究表明，在数理推理、编码能力和事实知识等多个基准测试中都取得了显著的改进。值得注意的是，改进后的 Llama-3-8b-Instruction 的表现超过了 ChatGPT，证明了我们方法的有效性。通过充分利用两种策略的优势，我们在领域内外基准测试上获得了更加平衡的性能提升。我们的代码可在此 https URL 找到。

Jun, 2024

InfoNCE: 理论与实践之间的差距辨识

在对比学习中，我们提出了 AnInfoNCE，它能够在现实场景中揭示潜在因素，并广义上推广了以往的可识别性结果。我们的控制实验验证了我们的可识别性结果，并展示了在 CIFAR10 和 ImageNet 中恢复先前已经损失的信息的能力，但同时降低了下游任务的准确度。此外，我们还探讨了理论假设与实际实现之间的进一步不匹配，包括对硬性负样本挖掘和损失集合的扩展。

Jun, 2024

基于双层混合与对比的零样本域自适应

该论文提出了一种新的零样本领域自适应方法，通过双层混合增强和对抗学习来学习具有低任务偏差的领域不变特征，实验证明该方法在多个基准测试上取得了良好的性能。

Jun, 2024

无参考图像质量评估的局部流形学习

我们提出了一种将局部流形学习与对比学习相结合的创新框架，用于无参考图像质量评估。该方法通过从给定图像中采样多个裁剪，识别出最具视觉显著性的裁剪，并将其他来自同一图像的裁剪作为正类进行聚类，将来自不同图像的裁剪作为负类以增加类间距离。与其他方法不同的是，我们的方法还将来自同一图像的非显著性裁剪作为类内负类以保持其独特性。此外，我们还采用了互相学习的框架，进一步增强了模型的自适应学习和视觉显著性区域识别能力。我们的方法在 7 个标准数据集中表现出更好的性能，达到了 0.942 的 PLCC 值（与 TID2013 的 0.908 相比）和 0.914 的 PLCC 值（与 LIVEC 的 0.894 相比）。

Jun, 2024

ProtoGMM：基于多原型高斯混合的领域自适应语义分割模型

通过利用 GMM 模型，我们提出了一种多原型对比学习的领域自适应语义分割方法，以实现源域和目标域之间的领域对齐，并在 UDA 基准测试中展示出了方法的有效性。

Jun, 2024

利用对比学习提升令牌化图变换器中节点表示

提出了一种名为 GCFormer 的新型图形变压器，该模型使用混合令牌生成器来捕捉多样性图形信息的两种类型的令牌序列，并采用定制的基于变压器的骨干结构从这些生成的令牌序列中学习有意义的节点表示。并且，GCFormer 引入了对比学习来从正负令牌序列中提取有价值的信息，提高了学习到的节点表示的质量。在各种数据集上进行的大量实验结果表明，与代表性的图神经网络（GNNs）和图形变压器相比，GCFormer 在节点分类方面具有优势。

Jun, 2024

提升跨语言跨模态检索中的一致性：基于 1-to-K 对比学习

提出了一种简单但有效的 1 对 K 对比学习方法，平等对待每种语言，消除错误传播和优化偏差的问题，并提出了一个新的评估指标 Mean Rank Variance（MRV），来反映每个实例内不同语言之间的排名不一致。在四个 CCR 数据集上进行的广泛实验表明，我们的方法在小规模预训练数据上提高了召回率和 MRV，并取得了新的最新成果。

Jun, 2024