- PASTA:通过逐步聚合时空对齐实现灵活高效的 HDR 图像处理
PASTA 是一种新颖的渐进聚合空时对齐框架,通过利用层次表示进行特征分解,从而实现高效性和效果性。通过在层次结构中利用不同的粒度,我们的方法极大地提升了计算速度并优化了 HDR 成像工作流程。实验结果展示了 PASTA 在视觉质量和性能指 - 超级 SDFusion: 提升 3D 文本到形状生成的语言和几何层次结构的桥接
提出了一种基于超几何空间的分层文本到形状生成模型,利用超几何空间学习文本和 3D 形状的分层表示,并通过引入双分支结构嵌入文本特征于 3D 特征空间,最终得到具有分层结构的生成 3D 形状,实验结果显示在现有文本到形状数据集上取得了最先进的 - 层级混合建模:柔性工具使用
基于活跃推理的混合模型实现动态规划和同步行为,将层次化地表示其他代理和对象,扩展关于控制作为推理的先前工作并提出深度强化学习的替代方向。
- BIOCLIP:生命之树的视觉基础模型
树生命 - 1000 万数据集及 BioCLIP 模型的开发和评估,证明其在获取生物学图像中具有较强的泛化能力和优越的性能。
- WWWFormerTime:用于多元时间序列分类的分层多尺度表示
提出了一种名为 FormerTime 的模型,结合特征金字塔和 Transformers 模型,解决了时间序列分类中长期依赖性建模和计算效率的问题,并在 10 个 UEA 存档数据集上获得了比竞争基线更好的分类性能。
- 多方面关注的层次发音评估
本研究提出了一种基于多方面注意力和分层表示的自动发音评估模型( HiPAMA ),可在不同层次(如音素、单词和句子)上评估发音的多个方面( 如准确性、流利度和完整性),从而实现更全面的反馈评估
- ACL层次化草图归纳用于释义生成
本文提出了一种生成抄袭的生成模型,它通过条件语法草图鼓励语法多样性。在 HRQ-VAE 的基础上,我们提出了一种学习散列编码分解的方法,表示输入的精细到粗糙的信息。通过 HRQ-VAE,我们可以将输入句子的句法形式编码为通过层次结构的路径, - ASFormer:用于动作分割的 Transformer
本文提出了一种名为 ASFormer 的高效 Transformer 模型,通过加入局部连接归纳先验、应用预定的分层表示模式和精心设计的解码器来解决应用 Transformer 模型于动作分割任务时遇到的问题,并在三个公共数据集上进行了广泛 - 使用分层透明表示法的多标签分类方法,应用于文章审核员推荐
本文提出了一种多标签分类的方法,使用分层透明表示方法,并提出了一种简单的基于多标签的评审人分配策略,以选择适当的评审人,同时还在粗粒度的粒度中探索了论文 - 评审人推荐。
- ICML无监督预训练有助于保留来自输入分布的视角
本文研究无监督预训练方法对信息理论的影响,当输入分布显示出多个监督视图时,该方法可以学习层次化表示,并确保学到的特征在条件标签下独立。无监督预训练可以帮助解决过拟合问题,并提出了一种实用方法来评估监督解缠和二进制特征中的多个视图数量。相比之 - 层次化视觉语言表示的多任务学习
该研究提出了一种多任务学习的方法,将来自各种不同数据集的任务共享视觉语言表示。结果表明该方法在图像字幕检索、视觉问答和视觉定位方面比先前的单任务学习方法表现更好,同时通过可视化注意力图分析了学习到的分层表示。
- CVPR具有决策树潜变量控制器的生成对抗图像合成
本文提出了一个名为 DTLC-GAN 的新型生成对抗网络,它可以层级化地提取图像的特征表示,并且使用条件互信息正则化方法进行训练。在多个数据集上进行实验,证实了 DTLC-GAN 的有效性,并且在图像检索任务中也产生了良好效果。
- CVPR重访显著物体检测:多显著物体的同时检测、排名和瞬时估算
本文提出了一种基于深度学习和分层表示的相对显著性检测方法,解决了在多个观察者查询时显著对象定义模糊的问题,同时还能够用于解决显著性目标子计数问题,并在所有指标上的性能优于先前的任何工作。
- SCAN:学习分层组合视觉概念
该论文介绍了一种名为 SCAN 的学习框架,可通过快速符号关联以无监督方式发现视觉基元并将其作为抽象概念来学习概念。SCAN 还可以通过符号指令遍历和操作视觉概念的隐式层次结构,并通过逻辑组合操作创建视觉概念的新组合,并能够生成多模态双向推