利用大型多模式模型解释生成模型的潜在表示
本文介绍了 LatentExplainer,这是一个自动化生成深度生成模型中潜变量语义有意义解释的框架,通过扰动潜变量和解释生成数据的变化,提供了一种系统的方法来理解和控制数据生成过程,增强了深度生成模型的透明度和可解释性。
Jun, 2024
借助大型多模态模型(LMMs),本文提出了一种新颖的解释框架,通过字典学习的方法应用于令牌的表示,准确地解释了多模态概念,并定量和定性地评估了学习到的概念在视觉和文本方面的相关性与质量。
Jun, 2024
本文提出一种优化跨多模态数据和标签的联合生成 - 判别目标函数的模型,将表示分解为多模态判别和模态特异性生成两组因子,实验结果表明该模型能够学习到有意义的多模态表示,并取得了领先水平的性能。
Jun, 2018
本文提出了一种可解释自然语言理解的框架,使用一小部分人类注释的解释进行训练,并采用变分 EM 方法进行优化,同时提出了基于解释的自训练方法,在两个自然语言理解任务上进行实验,证明了该框架不仅可以在监督和半监督设置下进行有效的预测,还可以生成良好的自然语言解释。
Oct, 2020
该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明,对于图像、标签和文本数据,这些模型在很多领域中达到了最优结果,并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后,在配合口语的任务中,该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。
Dec, 2019
本文提出了一种新的方法,通过找到生成模型中有意义的方向来提高生成模型潜在空间的可解释性,从而精确地控制生成图像的特定属性,如位置或比例。该方法对于搜索编码生成图像的简单变换方向(如平移,缩放或颜色变化)特别适用,并在 GAN 和变分自动编码器模型的质量和量化方面得到了证明。
Jan, 2020
通过引入模态潜在转换模块和新设计的融合模块,提出了一种强大的大型模型的潜在表示调优方法,以最大化模态之间的相关性,并提供在某一模态缺失情况下的稳健表示,同时保留图像和文本基础模型的冻结状态以保留其大规模预训练所获得的能力。实验证明了该方法的有效性。
Jun, 2024
本研究提出了一种多模态方法来解释深层模型,同时训练文本生成和注意权重可视化,研究结果表明该方法可以产生更好的文本解释模型,并能更好地定位支持分类决策的证据,从而明显优于单模态方法。
Feb, 2018
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
用于多模态数据的生成模型可用于识别与观察数据异质性重要决定因素相关的潜在因素。然而,存在一些变量是特定于单个模态的私有变量,而共享变量对解释多模态数据的变异性很重要。本研究探讨了多模态变分自编码器在可靠地实现这种解缠的能力方面,针对一种挑战性的问题设置,其中模态特定变异占主导地位,并提出了一种修改方法,使其对模态特定变异更加鲁棒。我们的发现得到了合成数据和多种真实世界多组学数据集的实验证实支持。
Mar, 2024