轻量级注意力特征融合:文本到视频检索的新基准
本文提出了一种新的视频字幕生成方法,利用多种视觉特征和语义属性的层次,采用 LSTM 网络进行句子生成,实现自动选取最突出的视觉特征或语义属性,有望提高字幕生成的精确度。实验结果表明,该框架胜过现有最先进的方法,并可进一步提升精度至近于人类水平。
Dec, 2016
通过多粒度视觉特征学习和二阶段检索体系结构,本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法,同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习,从而实现了与当前最先进方法相媲美的性能,且速度快近 50 倍。
Jan, 2024
本文提出了一种统一且普遍的方案,即关注特征融合,它适用于大多数常见场景,包括通过短跳线和长跳线引起的特征融合以及在 Inception 层内部的特征融合。通过多尺度通道关注模块来更好地融合不一致的语义和尺度的特征,并通过迭代关注特征融合来缓解特征地图的初始集成成为瓶颈的问题,我们的模型在 CIFAR-100 和 ImageNet 数据集上均优于最先进的网络,并表明特征融合的更复杂的关注机制具有持续提供比直接特征融合更好地结果的巨大潜力。
Sep, 2020
本文提出了一种名为 VLAB 的新型视频 - 文本预训练方法,通过特征适应和融合扩展了 CLIP 的能力并构建统一的视频多模态模型,验证了其在视频文本检索、视频字幕生成和视频问答等高竞争任务中的有效性和多功能性。
May, 2023
本研究采用自然语言反馈的图像检索方法,结合图像与文本特征实现细粒度视觉搜索并提出了 MAAF 模型,在 Fashion IQ 和 CSS 数据集中比现有方法表现更优,同时在 Fashion200k 数据集中也取得竞争性表现。此外,我们还提出了两个适用于丰富语言输入的新挑战基准,并通过实验证明该方法在不修改时优于强基线。最后我们在 Fashion IQ 上进行了深入细致的分析和可视化,揭示了单词避免 “关注” 他们所指图像区域的惊人现象
Jun, 2020
通过引入轻量级的关注网络,以及多尺度特征融合,本研究的主要目标是克服在实际应用中计算复杂性和多视角头部姿势方面所面临的挑战,该方法在参数数量和对姿势变化的鲁棒性方面达到了业界先进方法的水平。
Mar, 2024
本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
Jan, 2017
本文旨在解决跨模态视频检索问题,具体聚焦于文本到视频的检索,并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构,引入额外的 softmax 运算来修正推断的查询 - 视频相似性,并在三个大规模数据集上进行实验验证,以记录所提出网络的表现。
Nov, 2022
本文提出了一种文本自适应多视觉原型匹配模型,通过自适应聚合视频标记特征来描述视频,以解决视频和文本之间的关联模糊问题,而且此方法表现优于当前公共视频检索数据集上的最新技术。
Sep, 2022