从多模态数据中学习概念分类法
本文提出了 “视觉分类法扩展”(VTE),将视觉特征引入分类法扩展任务。我们提出了文本上位词学习任务和视觉原型学习任务,以聚类文本和视觉语义。除了各自的任务外,我们还引入了超原型约束,整合文本和视觉语义以产生细粒度的视觉语义。在两个数据集上对我们的方法进行评估,我们获得了令人信服的结果。特别在中文分类法数据集上,我们的方法的准确度提升了 8.75%。此外,我们的方法在中文分类法数据集上的表现优于 ChatGPT。
Sep, 2023
本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法,通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模,训练卷积神经网络来预测图像最可能出现为插图的语义上下文,有效地学习了区分性视觉特征,其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。
May, 2017
本文探讨了利用词汇分类学构建新的语义特征来提高文本分类任务精度和鲁棒性的方法,提出了一种基于分类学的特征构建并行算法 tax2vec,在性别、人格类型、年龄、新闻主题、药品副作用和药效预测等 6 个短文本分类问题上表现出与基于层次注意力神经网络等强基线方法相当的分类性能,同时在少量样本的学习情况下也表现出卓越的性能。算法能够提取特定于语料库的语义关键词,并且语义特征与著名的 Zipf 定律具有相似性。
Feb, 2019
本文提出了一种多语种图像字幕模型,通过联合特征学习将不同语言的单词映射到共同空间,其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。
Jun, 2019
本文提出一种新颖的强化学习方法,旨在从一组术语中自动归纳出分类法,该方法采用多种信息源学习术语对的表示,并使用策略网络确定要选择哪个术语以及将其放置在分类法中的何处,在训练分类法时通过整体树度量进行累积奖励,实验证明,该方法在两个不同领域的两个公共数据集上优于先前的最先进的分类法归纳方法高达 19.6%的祖先 F1。
May, 2018
本文借鉴视觉传达研究,探究了多模式信息检索的有用语义图像 - 文本关系,在自动收集和扩充数据资源的基础上,采用深度学习系统和三种度量标准(跨模态互信息、语义相关性和图像与文本的状态关系)对八种语义图像 - 文本类别进行了预测,并在一个严格的测试集上展示了该方法的可行性。
Jun, 2019
本文提出了一种自我监督和用户行为导向的产品分类法拓展框架,通过从现有的分类法和用户点击日志中抽取用户感兴趣的候选下义词关系并利用预训练语言模型和图神经网络结合对比学习来建模概念和关系,以自动将新概念附加到现有分类法,从而减少手动更新的人力成本。
Mar, 2022
本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入,旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明,利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入,并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时,我们在 MIRFlickr 数据集中明显优于现有技术。进一步,我们展示了如何使用学习到的嵌入执行语义多模态图像检索,超越了传统的实例级检索问题。最后,我们提出了一个新的数据集(InstaCities1M),由 Instagram 图像及其相关文本组成,可用于公平比较图像 - 文本嵌入方法。
Aug, 2018
该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架,结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入,实现了跨域多模态表示的提取,并构建了更全面的标记和未标记数据的嵌入,帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。
Mar, 2017