- 链接预测中的数值文字:模型和数据集的关键审查
我们提出了一种评估包含数字文字的 LP 模型的方法,并通过新的合成数据集和数据集切割策略来研究现有数据集的潜在问题,发现许多模型未充分利用文字信息并可能依赖额外参数来提高性能。我们的研究强调了发布新模型和数据集时需要进行更广泛的评估。
- 大语言模型下面向基于知识的视觉问答的知识获取分离
DKA 是一种无需训练的框架,通过从 LLM 反馈中解开知识获取以避免混乱,并利用 LLM 的反馈来指定所需的知识。通过将原始复杂问题分解为基于图像和基于知识的两个简单子问题,DKA 可以提供更精确的知识,并更好地与 LLM 的知识需求对齐 - 多模态表示学习的因果充分性和必要性
通过限制 C^3 风险,提出了一种名为 Causal Complete Cause Regularization (C^3R) 的插拔式方法,从而有效地学习多模态学习中的因果完整表示,实验证明了 C^3R 的有效性。
- MM不是所有的频率都是平等的:朝着时间序列预测中频率的动态融合
为了解决长期时间序列预测中的依赖性问题,本研究提出了一种名为 Frequency Dynamic Fusion(FreDF)的方法,该方法利用 Fourier 分析来捕捉不同频率下的时间序列模式,并动态地融合预测结果。通过广泛实验和消融研究 - 跨模态增强的少样本多模态假新闻检测
该论文提出了一种多模态假新闻检测模型,通过引入跨模态增强(CMA)方法将小样本学习转化为更强鲁棒性问题,并利用简单的线性探针方法在少量训练样本下对多模态假新闻进行分类,取得了优于三个基准数据集的结果。此外,该方法在可训练参数和训练周期方面明 - 数字重要!为检索系统带来数量意识
我们引入了两种数量感知的排名技术,这些技术可以联合或独立地对数量和文本内容进行排名,以解决包含数量条件(相等、大于和小于)的查询问题,并通过金融和医学领域的两个新颖的数量感知基准数据集验证了我们提出的模型的有效性。
- E2VIDiff:利用扩散先验进行感知事件到视频重建
我们介绍了一种使用扩散模型进行事件到视频重建的方法,通过利用预训练的扩散模型的图像生成能力和知识,可以在感知质量和重建帧的失真之间取得更好的平衡,从而实现了来自无色事件的彩色、逼真和感知上优越的视频生成。在基准数据集上进行的大量实验证明了我 - ECCV超越视角:通过联合多部分表示实现任意视角下的稳健三维物体识别
本研究介绍了一种新颖的基于部件的网络 (PANet),用于解决在任意视角下的 3D 物体识别问题,并在基准数据集上实验证明其优于现有的基于视点聚合的基准方法,甚至超过了大多数固定视点方法。
- ACTRESS:半监督视觉定位的主动重新训练
本研究提出了 ACTive REtraining 方法,用于解决稀有标注数据和多模型理解需求的半监督视觉定位问题,通过引入量化检测头和选择性重训练策略,使用辅助标签和无标签数据达到了在广泛使用的基准数据集上卓越的表现。
- 一对一 Pairwise DomMix 注意力对抗网络用于无监督领域自适应目标检测
提出了一种具有双向注意力对抗网络和域混合模块 (DomMix) 的无监督域自适应目标检测方法,以缓解大规模领域变化时单向域转移的缺点,并在多个基准数据集上进行了广泛的实验,证明了该方法的优越性。
- GCF: 图卷积网络用于面部表情识别
该研究提出了一种名为 GCF 的新方法,利用图卷积网络进行面部表情识别,通过将卷积神经网络用于特征提取,并结合图卷积神经网络层,有效提高了识别准确率,对 CK+,JAFFE 和 FERG 等数据集进行了评估,并证明了 GCF 方法在捕捉微妙 - 单步反向过程稳定的生物医学图像扩散分割
通过稳定扩散(SD)模型,我们引入了第一个潜伏扩散分割模型 ——SDSeg,该模型在医学图像分割中克服了资源和时间需求大、多步反向过程和多个样本预测可靠性等挑战,实验证明它在包含不同成像模态的五个基准数据集上胜过现有的最新方法。
- 基于多粒度和多模态特征交互的文本视频检索方法
我们提出了一种名为 MGFI 的新型多粒度特征交互模块,包括文本帧和词帧,用于视频文本表示对齐,以及一种名为 CMFI 的文本和音频的跨模态特征交互模块,用于解决视频中帧表达不足的问题。实验结果表明,所提出的方法优于现有的最先进方法。
- EasyECR: 一个简易的用于事件指代消解模型实现和评估的库
Event Coreference Resolution (ECR) is addressed through the development of EasyECR, an open-source library that standard - CherryRec: 基于 LLM 驱动框架的新闻推荐质量增强
通过使用自定义的基于文本特征的大型语言模型 (LLMs),我们提出了一个名为 CherryRec 的新闻推荐框架,以提高新闻推荐的效果和效率,并通过与基准方法在基准数据集上的比较验证了其有效性。
- DELLA-Merging: 通过基于大小的抽样减少模型合并中的干扰
利用一种新的模型合并技术 DELLA-Merging,它采用了一种名为 MAGPRUNE 的修剪技术,通过首先按照参数的大小对其进行排名并给较小的参数分配更高的丢弃概率 (p),接着在随机丢弃的参数上通过缩放操作近似原始嵌入。在三种不同的专 - 为归纳式知识图谱补全构建更好的基准数据集
通过提出一种新的策略构建归纳性的知识图谱补全(Knowledge Graph Completion,KGC)数据集,此策略有助于缓解 Personalized PageRank(PPR)的缺陷,进而使用这些数据集评估了多种常见方法的性能,促 - TGB 2.0: 时间知识图与异构图学习的基准评测
多关系时间图是建模现实世界数据的强大工具,研究论文介绍了用于评估方法的新的基准框架,并提供了大规模数据集,重点评估预测未来连接方法的效果。
- 跨视角地理定位:综述
本文针对跨视域地理定位领域的前沿方法、技术和挑战进行了综述,着重介绍了基于特征和深度学习策略。研究涵盖了建立不同视点之间对应关系的基于特征的方法,以及采用卷积神经网络嵌入视图不变属性的深度学习方法。对跨视域地理定位遇到的各种挑战进行了探讨, - 增益来源:条件平均剂量反应估计中的性能分解
我们提出了一种新的分解方案,用于评估影响 CADR 估计器性能的五个不同组成部分的影响。我们运行了近 1500 个独立实验,将这个方案应用于四个广泛使用的基准数据集上的八个流行的 CADR 估计器。我们的结果揭示了大多数现有的基准数据集的挑