BriefGPT.xyz
大模型
Ask
alpha
关键词
video localization
搜索结果 - 3
UniAV:统一的音频视觉感知支持多任务视频定位
UniAV 是一种统一的视听感知网络,可以联合学习时间动作定位(TAL)、声音事件检测(SED)和视听事件定位(AVEL)任务,并通过使用预训练的文本编码器设计统一的语言感知分类器,实现对各种类型实例的灵活检测。UniAV 通过更少的参数比
→
PDF
3 months ago
零样本自然语言视频定位
本文提出了一种新颖的伪监督方法,用于零样本学习自然语言视频定位模型,并在 Charades-STA 和 ActivityNet-Captions 数据集上实验验证该方法相较于其他方法性能有明显提升。
PDF
3 years ago
ICCV
TSP: 为定位任务进行的视频编码器时间敏感预训练
该研究提出了一种新的监督预训练范例,通过考虑背景剪辑和全局视频信息,不仅需要训练活动分类,而且还需要训练时序灵敏度,从而显着提高了最近最先进的方法在三个任务中的性能:时间动作本地化,行动建议生成和密集视频字幕。
PDF
4 years ago
Prev
Next