可解释的嵌入式技术用于即时视频搜索
通过构建新数据集和发展多词概念库,本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈,实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍,并将在 2016-2023 年(八年)TRECVid AVS 查询集的 xinfAP 增加了 2% 到 77%,平均约为 20%。
Apr, 2024
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
本文提出了一种新的视频检索方法,采用双重深度编码网络进行多级编码,将视频和查询作为两种模态编码为向量,同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习,经实验证明了方法的可行性。
Sep, 2020
该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式,以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法,采用协作专家模型来聚合信息,具有良好的检索性能。
Jul, 2019
本文提出了一种叫做 VideoStory 的语义视频表示方法,通过学习来自网络视频和其描述的嵌入来构建整个表示,同时通过多模态可预测性损失来提高描述性和可预测性,并利用术语敏感的描述性损失来识别没有例子的视频事件,从而在视频事件的少量和没有例子的识别方面提高了准确性。
Nov, 2015
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
本文提出了一种能够同时解决语义差异问题和根据用户历史交互提供个性化语义搜索结果的新方法,将图嵌入、transformer 模型和基于术语的嵌入统一到一个嵌入模型中,同时分享了特征工程、硬负采样策略以及 transformer 模型应用方面的技巧。此个性化检索模型增强了用户的搜索体验,并提高了搜索购买率和网站整体转化率。
Jun, 2023
提供了一个框架,允许用户在保持模型无关性的同时,将其领域知识的语义纳入主题模型的完善中。使用交互式视觉分析工作区支持用户完成语义空间的理解、潜在冲突和问题区域的识别以及基于对概念理解的重新调整,从而直接影响主题建模。通过操作与推荐交互相结合,目标完善旨在最小化高效的人机协同交互迭代过程所需的反馈次数,两项用户研究证实了该方法提高了主题模型质量。
Aug, 2019