BriefGPT.xyz
Ask
alpha
关键词
multimodal network
搜索结果 - 3
CVPR
XYLayoutLM:面向布局感知的多模态网络,用于视觉丰富的文档理解
本论文提出了一种名为 XYLayoutLM 的鲁棒的布局感知多模态网络,它可以从通过 Augmented XY Cut 生成的正确阅读顺序中捕获和利用丰富的布局信息,并且提出了一种扩展有条件位置编码模块来处理变长输入序列,同时从文本和视觉模
→
PDF
2 years ago
可解释的视听视频字幕生成尝试
本论文介绍了一个多模态卷积神经网络视频字幕框架,通过引入模态感知模块,探索了视听交互对视频理解的影响,并证明该可解释模型在情况选择时取得了可比较的性能。
PDF
6 years ago
CVPR
深度多模态无监督音视频聚类学习
提出了一种名为 Deep Multimodal Clustering 的无监督音频视觉学习模型,采用不同共享空间的多模态矢量的卷积映射集,进行多音频视觉对应关系的捕捉和精细对应学习,并通过最大间隔损失进行有效训练。通过实验,该模型可以学习到
→
PDF
6 years ago
Prev
Next