基于类别的深度 CCA 用于多模态数据中的细粒度场所发现

May, 2018

基于类别的深度 CCA 用于多模态数据中的细粒度场所发现

Category-Based Deep CCA for Fine-Grained Venue Discovery from Multimodal Data

Yi Yu, Suhua Tang, Kiyoharu Aizawa, Akiko Aizawa

TL;DR本文介绍了利用深度学习模型进行场地发现的方法，通过不同模态数据之间的跨模态关联实现精确和组群场地搜索。

Abstract

In this work, travel destination and business location are taken as venues. Discovering a venue by a photo is very important for context-aware applications. Unfortunately, few efforts paid attention to complicated real images such as venue photos generated by users. Our goal is fine-grained venue discovery from heterogeneous social →

venue discovery deep learning multimodal data cross-modal correlation exact and group venue search

发现论文，激发创造

通过受监督的深度 CCA 实现跨模式音乐视频检索的音频 - 视觉嵌入

使用 S-DCCA 算法构建跨模态音乐视频检索模型，其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块，使得得到的局部音频摘要能够很好地代表整个音频内容，构建的深度学习模型实现了音频和视频语义的跨模态学习，从而实现了跨模态情感相似的音乐视频检索，并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。

Aug, 2019

基于深度正交规范化相关分析的多模态情感识别

本文介绍了 DCCA 在多模态情感识别中的应用，并对现有方法的噪音鲁棒性进行了比较。实验结果表明，DCCA 在不同数据集上均取得了最先进的识别准确率，同时也表现出更好的噪音鲁棒性。通过可视化特征分布和计算不同模态之间的互信息等方法，证明 DCCA 能够更好地实现多模态组合和情感表达的一致性。

Aug, 2019

用于建模互联网图像、标签及其语义的多视图嵌入空间

本文探讨了基于互联网图像和相关文本标签的图像搜索、标签搜索和图像注释等任务，采用典型相关分析（CCA）方法将视觉和文本特征映射到同一隐藏向量空间，在此基础上，引入了表示高级图像语义的第三个视图来训练三个视图的嵌入，并结合多种视觉特征进行训练，实现了高效的嵌入式检索。

Dec, 2012

深度广义典型相关分析

提出了 Deep Generalized Canonical Correlation Analysis (DGCCA) 方法，通过学习非线性变换最大化信息关联，结合非线性（深度）表示学习的灵活性与多个独立来源视图的信息统计力量，通过在两个不同数据集上的三个下游任务训练，成功击败了已有的标准线性多视图技术，在语音转录和 Twitter 用户的 hashtag 推荐等方面表现更好。

Feb, 2017

深度变分正则化典型相关分析

本文介绍了一种名为 “深度变分典型相关分析” 的深度多视图学习模型，它通过深度神经网络对非线性观测模型进行参数化，扩展了线性 CCA 的潜变量模型解释。同时，我们还提出了一种名为 “VCCA-private” 的 VCCA 变体，它可以在提取共享变量的基础上，提取每个视图内的 “私有变量”，在没有硬指导的情况下分离多视图数据的共享信息和私有信息。实际数据集的实验结果表明，我们的方法在各个领域都具有竞争力。

Oct, 2016

图像聚类的深度全面相关挖掘

本论文提出了一种名为 DCCM 的新型聚类框架，可以从三个方面探索和充分利用未标记数据中的各种相关性，通过伪标签监督，全面的研究特征对输入空间的图像变换的稳健性，并将 triplet 互信息应用于聚类问题中，从而进一步有助于学习更有区分性的特征。在多个数据集上进行了广泛的实验，取得了良好的性能，例如在 CIFAR-10 上达到 62.3％的聚类准确度，比现有最先进方法高出 10.1％。

Apr, 2019

深度多模态无监督音视频聚类学习

提出了一种名为 Deep Multimodal Clustering 的无监督音频视觉学习模型，采用不同共享空间的多模态矢量的卷积映射集，进行多音频视觉对应关系的捕捉和精细对应学习，并通过最大间隔损失进行有效训练。通过实验，该模型可以学习到有效的单模态表示，并在声音定位、多源检测和音频视觉理解方面显示出显著的性能。

Jul, 2018

通过深度典范相关分析多模式语言的文本、音频和视频之间的关系

本研究提出了一个名为交互规范相关网络（ICCN）的模型，利用文本、音频和视频的特征之间的相关性来提高多模态情感分析和情感识别的准确性，该模型通过深度规范相关分析（DCCA）来学习所有三种模式之间的关联，并在多个基准数据集中进行了测试。

Nov, 2019

语义空间中基于标签传输的自动图像标注

本文提出了一种基于核规范相关分析（KCCA）的标签传播框架，能够构建一个潜在的语义空间来嵌入视觉和文本特征之间的相关性，并在四个数据集上展示了显著的改进。该方法不仅可以处理专家标注的数据集，还可以处理社交媒体上用户自动生成标签的嘈杂数据。

May, 2016

学习统计推断相关特征

通过深度典型相关分析 (DCCA) 找出可以最真实地从一种数据视角推导出的特征，进而构建出一非参数隐含联合概率分布的经典版本，以求解贝叶斯估算和标准偏差，并测试其在 OCCLUD MNIST 图像推理和监督学习中的可行性和效率，同时探索了发现单个数据集中显著的独立变量的可能性。

Apr, 2019