可解释的嵌入式技术用于即时视频搜索

MMFeb, 2024

可解释的嵌入式技术用于即时视频搜索

Interpretable Embedding for Ad-hoc Video Search

Jiaxin Wu, Chong-Wah Ngo

TL;DR通过集成特征嵌入和概念解释到神经网络中进行统一的双重任务学习，本论文实现了将嵌入与语义概念关联，作为视频内容解释的新方法，并在 TRECVid 基准数据集上证明了搜索结果的显著提升。

Abstract

Answering query with semantic concepts has long been the mainstream approach for video search. Until recently, its performance is surpasse

query semantic concepts video search embedding features neural network

发现论文，激发创造

通过生成式标题和多词概念库改进用于即席视频搜索的可解释嵌入

通过构建新数据集和发展多词概念库，本文解决了现有方法在出现未见查询和词汇量问题上的瓶颈，实验结果显示以上所述元素的整合将 AVS 方法在 MSRVTT 数据集上的 R@1 性能翻倍，并将在 2016-2023 年（八年）TRECVid AVS 查询集的 xinfAP 增加了 2% 到 77%，平均约为 20%。

Apr, 2024

通过概念化解释嵌入空间

本文提出了一种将任何嵌入空间转换成易理解的概念空间的方法，并展示了该方法在语义表示方面的实用价值，如发现潜藏的偏见和比较不同模型间语义的差异。

Aug, 2022

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016

文本视频双编码检索

本文提出了一种新的视频检索方法，采用双重深度编码网络进行多级编码，将视频和查询作为两种模态编码为向量，同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习，经实验证明了方法的可行性。

Sep, 2020

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

视频故事嵌入：在数据稀缺时识别事件

本文提出了一种叫做 VideoStory 的语义视频表示方法，通过学习来自网络视频和其描述的嵌入来构建整个表示，同时通过多模态可预测性损失来提高描述性和可预测性，并利用术语敏感的描述性损失来识别没有例子的视频事件，从而在视频事件的少量和没有例子的识别方面提高了准确性。

Nov, 2015

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

零样例视频检索的双重编码

这篇论文提出了一种新的方案，采用双重深度编码网络，将视频和查询编码成强大的密集表示，并在零样本视频检索的三个基准测试中实现了最新的成果。

Sep, 2018

Etsy 搜索中基于统一嵌入的个性化检索

本文提出了一种能够同时解决语义差异问题和根据用户历史交互提供个性化语义搜索结果的新方法，将图嵌入、transformer 模型和基于术语的嵌入统一到一个嵌入模型中，同时分享了特征工程、硬负采样策略以及 transformer 模型应用方面的技巧。此个性化检索模型增强了用户的搜索体验，并提高了搜索购买率和网站整体转化率。

Jun, 2023

语义概念空间：使用词嵌入投影引导主题模型的改进

提供了一个框架，允许用户在保持模型无关性的同时，将其领域知识的语义纳入主题模型的完善中。使用交互式视觉分析工作区支持用户完成语义空间的理解、潜在冲突和问题区域的识别以及基于对概念理解的重新调整，从而直接影响主题建模。通过操作与推荐交互相结合，目标完善旨在最小化高效的人机协同交互迭代过程所需的反馈次数，两项用户研究证实了该方法提高了主题模型质量。

Aug, 2019