提出了一种新的,综合了外观和语义信息的 2D VL 定位方法,该方法使用多模态线索生成稳健的嵌入向量,其中利用了场景的语义布局的不变性,并提出了一个基于深度学习的注重注意力的框架来指导嵌入向量生成的过程,在三个具有挑战性的本地化数据集上测试,平均绝对提高了 19%,并且通过对模型各个组件进行广泛研究,证明了语义信息和注意模块的贡献。
Dec, 2018
DimVis 是一个利用监督可解释的增强机器模型的可视化工具,通过交互式探索 UMAP 投影来提供高维数据分析的特征相关性解释,在转化复杂数据集为简单视觉表示时,增加了解释性,并解决了引入人为失真和解释性问题的困扰。
Feb, 2024
研究在神经网络中应用降维方法 tSNE 和 UMAP 时出现的假设,证明 ARDR 算法一定会收敛并探讨如何从 2D 的表现推回模型的原输入分布。
Jun, 2023
通过多视图表示学习,我们提出了一种区域化多视图表示学习(ROMER)方法,用于捕捉多视图依赖关系并学习表达性强的城市区域表示。我们的模型关注于从多源城市数据中学习城市区域表示,通过捕捉流动模式、兴趣点语义和签到动态等多视图相关性,采用全局图注意力网络学习图中任意两个顶点的相似度,并进一步提出了一个两阶段融合模块来综合考虑和共享多视图嵌入的特征。对真实世界数据集上的两个下游任务进行的大量实验证明,我们的模型性能优于现有方法,改进了最高达 17%。
Jul, 2023
本研究提出了一种新的两条路径的神经网络,其中视觉路径采用了最新的空间感知池化机制模型,结合从头开始训练的文本路径,实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后,该模型可提供新的跨模态检索性能和短语的视觉定位,达到了最新的最佳表现。
Apr, 2018
本文提出了一种名为 “几何自编码器” 的数据可视化方法,该方法采用低维潜在空间的自编码器训练,通过微分几何学的角度,引入新的正则化项,减少误差导致的畸变,使数据结构的可视化更加准确。
本文提出了一种基于梯度的注意力机制技术,用于解释变分自编码器(VAE)及其预测,该技术通过生成学习到的潜在空间的视觉注意力,可用于图像中异常的定位,并能融入模型训练来帮助改善潜在空间分解,这在 MVTec-AD 和 Dsprites 数据集上表现出了最先进的性能。
Nov, 2019
GeoExplainer 是一个可视化分析框架,支持分析人员创建解释性文档,总结和联系他们的空间分析结果。本文以建模 2016 年美国总统选举投票决定因素为案例研究,展示了我们的框架。
Aug, 2023
Embedding Projector 是一种交互式的嵌入可视化和解释工具,该工具可用于分析和探索嵌入的属性和特点,主要应用于机器学习、NLP 等领域。
Nov, 2016
本文提出了一种多视角文档表示学习框架,通过生成多个视图嵌入来表示文档,并通过全局 - 局部 loss 函数来防止多视图嵌入坍塌到同一个嵌入中,实现了稳定性的匹配,在密集检索方面取得了最新的成果。
Mar, 2022