BriefGPT.xyz
Ask
alpha
关键词
event-action-entity decomposition
搜索结果 - 1
MM
HANet: 视频文本检索的分层对齐网络
本文提出了一种 Hierarchical Alignment Network 框架,通过把视频和文本分解成三个层次,即事件 - 动作 - 实体水平,并在个体 - 局部 - 全局层次上构建层次表示,捕捉视频和文本之间的从精细到粗略的对应关系,
→
PDF
3 years ago
Prev
Next