- 自适应置信度多视图哈希在多媒体检索中的应用
提出了一种新颖的自适应置信度多视图哈希方法 (ACMVH),利用置信度学习和融合技术,通过消除噪音和提升特征表示来改进多媒体检索。实验证明,ACMVH 方法在两个公共数据集上表现优于现有的方法 (最大增加了 3.24%)。
- 中央相似性多视图哈希用于多媒体检索
多视角异构数据的哈希表示学习是提高多媒体检索准确性的关键,现有方法利用局部相似性,并未充分融合多视角特征,导致检索准确性较差。本文提出了一种新颖的中心相似性多视图哈希 (CSMVH) 方法来解决这些问题,采用中心相似性学习来解决局部相似性问 - 专利中的可视化类型和视角分类
本篇论文采用最先进的深度学习方法,对专利图像中的可视化类型和视角进行分类,并对 CLEF-IP 数据集进行了扩展和手动标注,实验结果证明了该方法的可行性。
- 学习未见过的模态交互
本文针对多模态学习的完备性假设提出挑战,提出一种基于特征投影模块的解决方案,在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明,该方法对于各种任务和模态具有很好的效果。
- ICML使用 Epsilon-Greedy 算法的多媒体信息搜索性能有效性研究
通过系统捕捉和分析人类用户的反馈模式,可以对多媒体内容进行有效索引,并使用 epsilon-greedy 方法避免本地最大值,并提高多媒体信息检索性能。
- 更快的 ADC: 利用 SIMD 解锁产品量化的潜力
该研究提出了 Quicker ADC 算法,利用 SIMD 指令和不规则的产生量化器,实现了更高效的高维空间多媒体检索和最近邻搜索,且优于当前优化实现,并在 FAISS 上实现了开源分支。
- 新模态:表情符号在预测、预期和检索方面的挑战
本文探讨了将表情符号视为一种新的语言交流媒介的可能性,并基于采集自 Twitter 的数据集,实现了从文本和图像中预测表情符号的功能。同时,也初步解决了如何处理新的表情符号和使用表情符号进行多媒体检索的问题。
- 跨媒体检索综述:概念、方法、评估和挑战
本文综述了多媒体检索中跨媒体检索的概念、方法和挑战,建立了包括数据集和实验结果的基准,并提供了一个新的跨媒体数据集 XMedia,这将有助于研究者更好地了解跨媒体检索,并为算法设计提供方便。
- HashNet: 基于连续方法的深度哈希学习
HashNet 是一种基于连续化方法具有收敛保证的新型深度学习哈希结构,它从不平衡的相似性数据中学习准确的二进制哈希码,在标准测试中可产生最先进的多媒体检索性能。
- 异构多媒体检索的传递哈希网络
本文提出了一种用于跨模态信息检索的混合深度架构,通过在辅助数据集中同时学习跨模态相关性和对齐数据集分布,生成异质多媒体检索的中间哈希代码,实验结果在公共数据集上表现为业内最先进的多媒体检索性能。
- 深度跨模态哈希
本文提出了一种名为深度跨模态哈希(DCMH)的方法,通过将特征学习和哈希码学习整合到同一框架中来解决现有跨模态哈希方法中手工制作的特征与哈希码学习程序不兼容的问题,并使用基于神经网络的端到端学习方法,取得了在跨模态检索中的最优性能。
- 多模态相似性保持哈希
提出了一种高效的计算框架,用于将多模式数据散列成单一表示空间,使它们可以相互比较。该方法基于一种新的耦合孪生神经网络架构,并允许统一处理内部和跨模态相似性学习。与现有的跨模态相似性学习方法不同,我们的散列函数不仅限于二值化线性投影,并且可以