- 基于视觉解释的自我改进分类系统:使用虚拟对抗训练
通过将虚拟对抗训练(VAT)与 BERT 模型结合,提出了一种基于视觉解释的自我改进的分类模型,用于解决使用 BERT 构建的分类系统存在的解释困难和鲁棒性低的问题。实验结果表明该模型在 Twitter 的推文数据集上对分类任务具有显著有效 - 寻迹卷轴:透过绘画溯源窥探历史
通过使用手卷绘画作品,我们提出了一种名为 ScrollTimes 的系统,它结合了图像处理技术和语言模型,可用于追踪历史背景并揭示手卷绘画作品的历史性价值。
- AAAIDeepVisualInsight:面向深度分类训练时空因果关系的时间旅行可视化
本文提出了一个时间旅行可视化方案 DeepVisualInsight (DVI), 旨在展示深度学习图像分类器在训练过程中的时空因果关系。研究人员总结了四个空间和时间属性,并设计了可视化方案来满足这些属性。实验结果表明,DVI 在几个方面都 - 基于视觉分析的图像编码速率失真模型
该论文提出了一种面向视觉分析的率失真模型,基于机器学习算法的方法确定了每个编码单元的重要程度,并提出了一种新的失真度量模型以提高图像压缩的品质,从而在多个典型视觉分析任务中实现了高达 28.17% 的比特率节约。
- 多粒度时空建模用于唇读
本文提出了一种基于多级时空建模法的新型唇读模型,采用细粒度和中等粒度特征提取方法,结合时域注意理解整个输入序列,该模型在挑战的单词级唇读基准测试中表现出良好的效果。
- 持久图的渐进性 Wasserstein 几何中心
本文提出了一种高效算法,用于逐步逼近持久性图的 Wasserstein 重心,以及对集合数据的可视化分析,包括持久性图的计算、集数据的聚类和图形的计算等,同时提高算法的收敛速度和并行性能。
- VizNet: 一个大规模可视化学习和基准库
本文介绍了 VizNet,它是一个包含了超过 3100 万个数据集的大规模语料库,从开放数据库和在线可视化画廊中编译而来。它提供了一个必要的公共基线,用于比较可视化的设计技术,并为自动化可视化分析开发基准模型和算法。我们展示了如何从实验结果 - 单个嵌入是否足够?学习能够捕获多种社交上下文的节点表示
该研究提出了一种学习多个图节点表示的方法,该方法基于一个本地社区的原则性分解来编码节点的角色,并展示了在多种图形上联合预测任务中的最新成果,从而减少了 90% 的错误率,同时还显示出这些嵌入允许了对学习社区结构的有效视觉分析。
- 从预告片到剧情:从电影中高效学习的方法
该研究通过设计视觉模块和时间分析模块,提出了一种从电影数据中学习视觉模型的替代方法,可以通过预告片学习视觉模块,通过电影数据学习时间分析模块,大大减少学习成本的同时还能够保留长期的时间结构和有效的视觉特征。
- KDD多模态情感分析探索情绪结构
本文提出一种新的多模态情感分析方法,使用深度神经网络结合视觉分析和自然语言处理,旨在推断用户潜在的情感状态并且在社交网络中应用此方法实现自我报告的情感标签的预测,实验证明该模型的性能优于仅基于图像或文本的单独模型,并具有与情绪相关的合理词汇 - 机器眼中的艺术史形态
研究了卷积神经网络在艺术风格分类任务中的应用,并通过与艺术史概念的相关性分析评估了其学习表征。学习表征显示艺术风格的视觉变化可以由少数基本因素解释,这些因素与 Heinrich Wölfflin 提出的风格模式相关,并且网络能在没有关于时间 - ICCV3D 人体姿态估计的简单而有效的基准线
通过构建一个借助于当前技术能在控制误差较低前提下从 2D 开环位置中提取 3D 位置任务的相对简单的深度前向网络,我们发现了现代深度 3D 姿态估计系统的可视分析引起的错误是其主要问题。
- 使用深度 CNN 分析离线签名验证学习的特征
通过使用深度卷积神经网络和 GPDS 数据集,本研究提出了一个更好的离线手写签名验证方法,它在记录一定个人签名技能的伪造签名的情况下取得了 2.74% 的等错误率,并对模型进行了视觉和错误分析。
- LSTMVis: 递归神经网络隐藏状态动态的可视化分析工具
本文介绍了 LSTMVIS,一种用于理解循环神经网络(尤其是长短时记忆网络)隐藏状态动态的可视化分析工具,可通过结构性注释和大数据集对状态变化进行匹配和对齐,来分析论述特定的隐藏状态特性和模式。