从多模态数据中学习概念分类法

ACLJun, 2016

Learning Concept Taxonomies from Multi-modal Data

Hao Zhang, Zhiting Hu, Yuntian Deng, Mrinmaya Sachan, Zhicheng Yan...

TL;DR本文提出了一种基于文本和图像的概率模型，通过端到端特征设计实现自动构建上位词分类法。通过小型本体数据的判别训练，该模型可以从头开始为具有关联图像的未知概念标签构建完整的分类法。在 WordNet 层次结构的评估中，本系统的表现优于以往方法。

Abstract

We study the problem of automatically building hypernym taxonomies from textual and visual data. Previous works in taxonomy induction generally ignore the increasingly prominent →

hypernym taxonomies textual data visual data probabilistic model distributed representations

发现论文，激发创造

朝向视觉分类学的拓展

本文提出了 “视觉分类法扩展”（VTE），将视觉特征引入分类法扩展任务。我们提出了文本上位词学习任务和视觉原型学习任务，以聚类文本和视觉语义。除了各自的任务外，我们还引入了超原型约束，整合文本和视觉语义以产生细粒度的视觉语义。在两个数据集上对我们的方法进行评估，我们获得了令人信服的结果。特别在中文分类法数据集上，我们的方法的准确度提升了 8.75%。此外，我们的方法在中文分类法数据集上的表现优于 ChatGPT。

Sep, 2023

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

tax2vec: 从分类法中构建可解释特性，用于短文本分类

本文探讨了利用词汇分类学构建新的语义特征来提高文本分类任务精度和鲁棒性的方法，提出了一种基于分类学的特征构建并行算法 tax2vec，在性别、人格类型、年龄、新闻主题、药品副作用和药效预测等 6 个短文本分类问题上表现出与基于层次注意力神经网络等强基线方法相当的分类性能，同时在少量样本的学习情况下也表现出卓越的性能。算法能够提取特定于语料库的语义关键词，并且语义特征与著名的 Zipf 定律具有相似性。

Feb, 2019

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

用端到端强化学习实现自动分类学归纳

本文提出一种新颖的强化学习方法，旨在从一组术语中自动归纳出分类法，该方法采用多种信息源学习术语对的表示，并使用策略网络确定要选择哪个术语以及将其放置在分类法中的何处，在训练分类法时通过整体树度量进行累积奖励，实验证明，该方法在两个不同领域的两个公共数据集上优于先前的最先进的分类法归纳方法高达 19.6％的祖先 F1。

May, 2018

理解、分类和预测语义图像 - 文本关系

本文借鉴视觉传达研究，探究了多模式信息检索的有用语义图像 - 文本关系，在自动收集和扩充数据资源的基础上，采用深度学习系统和三种度量标准（跨模态互信息、语义相关性和图像与文本的状态关系）对八种语义图像 - 文本类别进行了预测，并在一个严格的测试集上展示了该方法的可行性。

Jun, 2019

用户行为监督下的产品分类扩展：从所做的事情中学到所需的知识

本文提出了一种自我监督和用户行为导向的产品分类法拓展框架，通过从现有的分类法和用户点击日志中抽取用户感兴趣的候选下义词关系并利用预训练语言模型和图神经网络结合对比学习来建模概念和关系，以自动将新概念附加到现有分类法，从而减少手动更新的人力成本。

Mar, 2022

利用文本和图形向量表示来丰富分类学

本文研究领域为知识图谱，提出了一种基于图结构表示与深度学习的分类体系扩展方法，实验结果表明该方法在多个数据集上具有优异的效果。

Jan, 2022

从网络数据中通过深度语义嵌入学习学习

本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Aug, 2018

学习鲁棒的视觉 - 语义嵌入

该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。

Mar, 2017