关键词multi-modal transformer network
搜索结果 - 2
- 使用非影像数据为条件的 Transformers 生成放射学报告
该研究提出了一种新颖的多模态变压器网络,将胸部 X 光片(CXR)图像与相关的患者人口统计信息相结合,合成特定患者的放射学报告,并通过综合得出的语义文本嵌入和医学图像 - derived 视觉特征的变压器编码器 - 解码器网络,以提高报告生 - 多模态 Transformer 网络用于动作检测
本文提出了一种新的多模态转换器网络,用于检测未修剪视频中的动作,利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性,并提出一种算法来纠正相机运动引起的动态变形,该算法在 THUMOS14 和 ActivityNet 两个公共基准测