关键词multi-view image features
搜索结果 - 2
- GNeSF:泛化的神经语义场
基于神经隐式表示的 3D 场景分割方法,通过多视图图像特征和语义地图作为输入,采用软投票机制来聚合来自不同视图的二维语义信息,结合视角差异信息预测投票分数,通过可见性模块筛选掉遮挡视图的有害信息,在只有二维语义监督的情况下,能够综合合成语义 - AAAIDualVD:一种用于视觉对话中深度视觉理解的自适应双编码模型
该研究提出了一种新的模型来从视觉和语义两个角度描述图像,在多角度图像特征的基础上提出了特征选择框架,逐层适应性地捕捉问题相关信息,并在基准视觉对话数据集上取得了最先进的结果。更重要的是,通过可视化门控值,我们能够确定视觉和语义哪个模式在回答