BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal signals
搜索结果 - 4
HOT3D:一个关于 3D 手部和物体追踪的自我中心数据集介绍
HOT3D 是一个公开可用的三维视角下手部和物体跟踪的数据集,包含大量的多视角 RGB / 单色图像流以及 19 个参与者与 33 个不同的刚体物体的交互动作,提供了多模态信号和全面的真实标注,旨在加速关于视角自身手部与物体交互的研究。
PDF
21 days ago
放射报告生成的强化视觉引导网络
通过提出具有全局密集注意力(GIA)模块的医学图像编码器和可视化知识引导解码器(VKGD),我们的研究旨在解决自动放射学报告生成中的多视角推理和多模态信息处理的问题,实现更准确的报告生成。在实验中,我们的方法在 IU X-Ray 和 MIM
→
PDF
5 months ago
融合多种模态信息的统一视频物体分割时序变换器
本文提出了 MUTR,通过统一框架和两种策略,实现了同时支持文本和音频引用的视频对象分割,实现了视频内部各帧的时序交互,从而提高了语义对齐和目标对应的准确性。MUTR 在多个数据集上都达到了更好的 J&F 性能。
PDF
a year ago
WSDM
多模态图边变分自编码器在社交网络中的关系学习
研究探讨了 social networks 中节点语义,但对个人资料中的边引用语义关注不足,因此本文致力于将多种模态的信号整合到一个基于概率图模型的框架中,以实现对社交网络中用户之间意义丰富的关系的建模。通过试验和案例研究表明了该模型的高效
→
PDF
5 years ago
Prev
Next