本文提出了一种正则化损失的变分自编码器(VAEs),通过强制模型关注感兴趣的类别,使得 VAE 的学习潜在空间适用于特定类别的检索任务,新方法在三个公共数据集和一个自定义数据集上得到比竞争 VAE 的方法更好的表现,尤其是在域内和域外检索问题上。
Apr, 2023
通过使用大规模视觉语言模型(VLMs)和大型语言模型(LLMs)并基于文本目标修改对参考图像进行标题化,然后通过 CLIP 进行检索,我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法,以训练免费的方式解决 CIR 问题,并取得了与有监督的方法相竞争的性能。
Oct, 2023
研究通过使用知识图谱来优化大型语言模型的性能,并提出了一种能够解释的集成学习方法 (IERL),在 General Language Understanding Evaluation (GLUE) 任务中表现良好。
Jun, 2023
通过引入一种简单的循环变分自编码器结构,我们在图像建模方面取得了显著进展,实现了割裂了关于全局概念信息和底层细节的分离,达到了无监督学习的基石之一。同时,我们通过仅存储关于图像的全局信息,实现了高质量的 ' 概念压缩 '。
Apr, 2016
本文提出了一种基于无监督学习、从神经科学中获得灵感的方法,利用变分自编码器对图像数据进行学习,从而获得解耦表示。该方法可以使神经科学的研究成果得以应用到实际中,同时还有零样本推理和直观理解的优点。
Jun, 2016
我们提出了一种语义感知的隐式表示方法(SAIR),其将每个像素的隐式表示分别依赖于其外观和语义信息(例如,像素属于哪个对象)。我们的实验证明,该方法在图像修复任务中超越了现有方法的显著优势。
本文介绍的 Intermediate enTity-based Sparse Interpretable Representation Learning (ItsIRL) 方法在生物医学任务中表现优异,同时维护了 “可解释性” 和支持模型调试的能力,并探索了 “反事实” 精细实体类型操纵的能力以及构造基于实体类型的类原型以揭示模型学习的类别的全局语义特征。
Dec, 2022
该研究论文提出了一种自监督可解释概念嵌入模型(ICEMs),通过利用大型语言模型的泛化能力,在自监督方式下预测概念标签,并通过可解释的函数提供最终预测结果。实验结果表明,ICEMs 可以以自监督方式进行训练,并达到类似于全监督概念模型和端到端黑盒模型的性能。此外,该模型在预测方面具有解释性、互动性和可控性,能够提供有意义的逻辑解释、允许通过概念干预修改中间预测结果,并引导大型语言模型按照所需的决策路径进行解码。
Jun, 2024
通过从大型预训练的视觉语言模型中提取和训练一组概念编码器,我们的目标是学习一种以语言为导向的视觉概念表示,以重现输入图像,并通过遵循一组与视觉相关的概念轴从新的测试图像中提取概念嵌入,从而生成具有视觉概念新组合的图像。
Dec, 2023
本篇论文介绍了新型的图像检索方法:内容检索和基于标记的检索,它们都存在一些限制。作者提出了一种方法,可以对深度学习产生的标记进行语义细化和扩展,解决了标记的嘈杂问题和限制,使用整数线性规划来解决该问题。实验表明,该方法可以改善现有的可视化标记工具的质量。
Sep, 2019