轻量级注意力特征融合：文本到视频检索的新基准

ECCVDec, 2021

轻量级注意力特征融合：文本到视频检索的新基准

Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval

Fan Hu, Aozhu Chen, Ziyue Wang, Fangming Zhou, Jianfeng Dong...

TL;DR本文提出了一种轻量级关注特征融合 (LAFF) 的方法，它旨在通过优化特征的凸组合来实现文本到视频的检索，并且在两端均进行特征融合，大大提高了利用已有特征的能力，并证明其作为文本到视频检索新基准的有效性。

Abstract

In this paper we revisit feature fusion, an old-fashioned topic, in the new context of text-to-video retrieval. Different from previous research that considers →

feature fusion text-to-video retrieval lightweight attentional feature fusion off-the-shelf features baseline

发现论文，激发创造

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

高效且有效的文本到视频检索：基于粗粒度到细粒度的视觉表征学习

通过多粒度视觉特征学习和二阶段检索体系结构，本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法，同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习，从而实现了与当前最先进方法相媲美的性能，且速度快近 50 倍。

Jan, 2024

注意力特征融合

本文提出了一种统一且普遍的方案，即关注特征融合，它适用于大多数常见场景，包括通过短跳线和长跳线引起的特征融合以及在 Inception 层内部的特征融合。通过多尺度通道关注模块来更好地融合不一致的语义和尺度的特征，并通过迭代关注特征融合来缓解特征地图的初始集成成为瓶颈的问题，我们的模型在 CIFAR-100 和 ImageNet 数据集上均优于最先进的网络，并表明特征融合的更复杂的关注机制具有持续提供比直接特征融合更好地结果的巨大潜力。

Sep, 2020

VLAB: 通过特征调整和混合增强视频语言预训练

本文提出了一种名为 VLAB 的新型视频 - 文本预训练方法，通过特征适应和融合扩展了 CLIP 的能力并构建统一的视频多模态模型，验证了其在视频文本检索、视频字幕生成和视频问答等高竞争任务中的有效性和多功能性。

May, 2023

基于视觉搜索与文本反馈的模态无关注意力融合

本研究采用自然语言反馈的图像检索方法，结合图像与文本特征实现细粒度视觉搜索并提出了 MAAF 模型，在 Fashion IQ 和 CSS 数据集中比现有方法表现更优，同时在 Fashion200k 数据集中也取得竞争性表现。此外，我们还提出了两个适用于丰富语言输入的新挑战基准，并通过实验证明该方法在不修改时优于强基线。最后我们在 Fashion IQ 上进行了深入细致的分析和可视化，揭示了单词避免 “关注” 他们所指图像区域的惊人现象

Jun, 2020

一种基于多尺度特征融合的轻量级注意力深度网络用于多视角面部表情识别

通过引入轻量级的关注网络，以及多尺度特征融合，本研究的主要目标是克服在实际应用中计算复杂性和多视角头部姿势方面所面临的挑战，该方法在参数数量和对姿势变化的鲁棒性方面达到了业界先进方法的水平。

Mar, 2024

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017

视频翻译的自适应特征抽象

本研究提出了一种新的方法，使用自适应的注意力机制和多层卷积神经网络特征（即特征抽象）来生成视频的时空表示，通过实验验证了该方法的有效性。

Nov, 2016

所有组合都相等吗？使用多空间学习将文本和视觉特征结合以进行基于文本的视频检索

本文旨在解决跨模态视频检索问题，具体聚焦于文本到视频的检索，并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构，引入额外的 softmax 运算来修正推断的查询 - 视频相似性，并在三个大规模数据集上进行实验验证，以记录所提出网络的表现。

Nov, 2022

文本自适应的多视觉原型匹配用于视频检索

本文提出了一种文本自适应多视觉原型匹配模型，通过自适应聚合视频标记特征来描述视频，以解决视频和文本之间的关联模糊问题，而且此方法表现优于当前公共视频检索数据集上的最新技术。

Sep, 2022