- 多尺度表示学习的细粒度城市流量推断
通过自我监督对比学习,UrbanMSR 模型利用多尺度表示的邻近层级和城市层级地理信息,融合多尺度表示以提高细粒度准确性,从而有效地学习跨时空的多尺度信息,并在三个真实数据集上进行了广泛实验证实了该模型的优越性。
- 超越融合:一种用于遥感图像 - 文本检索的多尺度对齐方法
遥感图像文本检索领域的研究论文,介绍了一种新的多尺度对齐方法,使用多尺度图像特征和本地化文本特征进行交叉对齐,并引入语义对齐损失与跨尺度多模态语义一致性损失,通过在多个数据集上的评估证明了其优越性。
- ICLR多尺度表示通过变化窗口注意力的语义分割
多尺度学习在语义分割中起着重要作用。本文针对多尺度学习过程中的不足提出了一种新型多尺度学习器,即变窗关注(VWA),它利用了本地窗口关注(LWA)并将其分解为查询窗口和上下文窗口,使得上下文的尺度可以变化以便查询窗口学习多尺度的表示。此外, - 稠密关联模型中的语义相关记忆
提出了一种名为相关密集关联记忆(CDAM)的新型关联记忆模型,通过整合自关联和异关联在一个统一的框架中来处理连续值记忆模式。采用任意图结构来语义链接记忆模式,CDAM 在理论和数值上得到分析,揭示了四种不同的动力学模式:自关联、窄异关联、宽 - 双向多尺度隐式神经表示的图像去雨
为了有效地探索雨纹的多尺度表示,我们提出了一种端到端的多尺度 Transformer,利用各种尺度上的潜在有用特征来促进高质量的图像重建,并结合空间变化的雨纹的内部尺度隐式神经表示,在复杂场景中提高模型的鲁棒性;通过粗到细和细到粗的信息传递 - ConvTimeNet: 多变量时序分析的深层分层完全卷积模型
本文介绍了 ConvTimeNet,这是一个新型的深层分层全卷积网络,旨在作为时间序列分析的通用模型。该网络的关键设计从两个方面入手,旨在克服传统卷积网络的局限性。第一,我们提出了将时间序列自适应分割为子序列级的补丁,并将其作为基本建模单元 - HUTFormer:用于长期交通预测的分层 U-Net Transformer
我们首次尝试研究长期交通预测的问题,并提出了一种名为 HUTFormer 的新型模型,通过多尺度表示来有效改善长期交通预测的挑战,并在多个交通数据集上证明其在预测性能上显著优于现有的基准模型。
- KDDWarpformer:一种针对不规则临床时间序列的多尺度建模方法
Warpformer 是一种全新的方法,考虑了多元时间序列的内部不规则性和不同序列之间的差异,通过设计特殊的输入表示,变形模块和注意力模块,生成多尺度表示,用于各种下游任务。
- 一种基于神经状态空间模型的高效语音分离方法
提出了一种基于神经状态空间模型的高效音频分离框架 S4M,该模型可以将输入信号建模为线性常微分方程的形式,并在多尺度表示学习中学习全局一致的分离和重构,其模型复杂度显著低于 Attention-based Sepformer。
- MS-LSTM: 探索视频预测领域的时空多尺度表示
本文介绍了一种新的视频预测模型 ——MS-LSTM,该模型采用多尺度空间和时间结构,在充分捕捉时空上下文信息方面具有高效和优秀的性能。与现有的 RNN 模型不同的是,MS-LSTM 使用 LSTMs 和不同的卷积内核设计空间和时间尺度,实现 - AF$_2$: 航空影像分割的自适应聚焦框架
本论文提出了一种名为自适应聚焦框架(AF2)的层级分割方法,通过利用多尺度特征信息来更好地识别不同大小的目标,并通过可学习的自适应置信机制(ACM)确定不同对象分割时应该使用哪种尺度的特征,实验证明该方法在三种广泛使用的航拍图像数据集上都取 - 面向医学图像分割的类别感知对抗变压器
CASTformer 是一种新型的对抗变压器,用于二维医学图像分割,优于先前的转换器方法,并使用新增的多尺度表示、类别感知转换器模块和对抗性训练策略,其实验表明具有更好的分割精度和性能。
- Lawin Transformer:通过大窗口注意力提高多尺度表示的语义分割 Transformer
本文通过引入窗口关注机制和金字塔池化等方法,成功将多尺度表征引入语义分割 ViT 中,进一步提高了性能和效率。研究结果表明,该模型具有更高的效率和更好的表现,并在 Cityscapes、ADE20K 和 COCO-Stuff 数据集上,取得 - 多尺度高分辨率视觉 Transformer 用于语义分割
HRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成,探索异构分支设计,减少线性层中的冗余并增强注意力块的表现力,从而在 ADE20K 和 Cityscapes 数据集达到 50.20%和 83.16%的 - 具有条件核的概率图注意力网络用于逐像素预测
本研究提出了一种新的方法,即基于概率图注意力网络结构和依赖特征的条件核,在理论上合理地学习和融合多尺度特征,并用于像素级预测,实验结果表明其有效性。
- CVPRDCNAS:用于语义图像分割的密集连接神经架构搜索
本研究提出一种名为 Densely Connected NAS (DCNAS) 的神经架构搜索框架,通过连接细胞并使用可学习的权重来引入密集连接的搜索空间,并通过路径和通道级别的抽样策略设计一个融合模块来降低搜索空间的内存消耗。DCNAS - ICLR利用网格细胞进行空间特征分布的多尺度表示学习
提出了一个名为 Space2Vec 的表示学习模型,用于将地点的绝对位置和空间关系进行编码,并在地理数据和图像分类两个任务上得到了比径向基函数和多层前馈神经网络等传统机器学习方法更好的效果,其特点是具有多尺度表示能力。
- MutualNet: 通过宽度和分辨率的相互学习来自适应卷积神经网络
提出了宽度 - 分辨率互学习方法 MutualNet,通过训练不同宽度的多个子网络来实现自适应准确性和效率之间的权衡,最终在不同计算约束下,通过互学习获得更好的 ImageNet top-1 精度。
- 感知边缘检测的双向级联网络
本研究提出了一种双向级联网络结构(BDCN),结合比例增强模块(SEM),以改善对象不同尺度上的边缘检测,并在多个数据集上验证其有效性。
- NIPS使用注意力门控 CRFs 学习深度结构多尺度特征以进行轮廓预测
本文提出了一种新颖的方法来预测轮廓,通过引入分层深度模型以及使用新型的 AG-CRFs 对不同尺度的特征表示进行精细融合,实现了更加精确的轮廓检测,实验结果表明其在 BSDS500 和 NYUDv2 数据集上都表现出了较好的性能。