基于嵌入的生成模型统计推断

Oct, 2024

Embedding-based statistical inference on generative models

Hayden Helm, Aranyak Acharyya, Brandon Duderstadt, Youngser Park, Carey E. Priebe

TL;DR本研究解决了现有生成模型在推断模型级协变量方面的不足，通过扩展基于嵌入的表示方法，提出了一种新的“相似性”概念。这种方法有效地提高了模型级推断任务的准确性和效率，具有重要的应用潜力。

Abstract

The recent cohort of publicly available generative models can produce human expert level content across a variety of topics and domains. Given a model in this cohort as a base model, methods such as parameter efficient fine-tuning, in-context learning, and constrained decoding have fur

发现论文，激发创造

一种基于概率矩阵分解的词嵌入模型

本文提出了一种新的生成模型，将先验用于计算词汇统计量的闭合形式表达式，从而为非线性模型提供了理论上的证明，并帮助解释了低维度语义嵌入中线性代数结构的存在，以及解决了词汇类比问题。

Feb, 2015

基于分数的扩散模型的最大似然训练

本文提出基于分数的扩散模型的最大似然训练方法，其中采用一种特定的权重方案，目标函数上界拘束负对数似然函数，达到了与当前最先进的自回归模型同等水平的负对数似然性能，验证了该方法在多个数据集、随机过程和模型结构上的有效性。

Jan, 2021

生成模型作为多视角表示学习的数据源

研究了从黑盒生成模型而不是数据直接学习通用视觉表达式的设置，通过该生成器的样本输出训练，比较了几种可应用于该设置的表征学习方法，使用生成器的潜空间来生成相同语义内容的多个“视图”，表明多视图数据可以自然地用于识别正面对和负面对。

Jun, 2021

因果深度生成模型的机遇：调查和未来方向

本综述介绍了结构因果模型和深度生成模型相结合的因果深度生成模型的最新研究进展，详细讨论了其分类、生成类型和引入因果性的方法，探讨了该领域未来的研究方向。

Jan, 2023

学习非参数高维生成模型：经验贝塔-科普拉自动编码器

通过从自动编码器的潜空间进行采样并将样本解码到原始数据空间，可以将任何自动编码器简单地转变为生成模型。本研究旨在讨论、评估和比较可以用于捕捉潜空间的各种技术，以使自动编码器成为生成模型，同时追求简单性。其中，考虑了一种基于copula的新方法，即经验Beta Copula自动编码器。此外，我们还提供了关于这些方法进一步方面的见解，例如有针对性的采样或合成具有特定特征的新数据。

Sep, 2023

评估科学生成模型的统计距离实用指南

本研究旨在理解和评估用于科学中生成模型的统计距离，包括Sliced-Wasserstein、Classifier Two-Sample Tests、Maximum Mean Discrepancy等方法。通过评估决策模型和生成医学图像模型，展示了这些不同距离对相似数据的不同结果。

Mar, 2024

嵌入模型何时比其他模型更有前途？

本研究提出了一种统一的评估嵌入模型的方法，通过建立理论基础并利用信息充分性的概念进行比较，为自动排序过程提供了一种可操作的标准，展示了实验证明该方法与嵌入模型在自然语言处理和分子生物学中支持各种下游任务的能力密切相关，为实践者提供了一种有价值的模型试验优先级工具。

Jun, 2024

理解生成性人工智能内容的嵌入模型

本研究解决了高质量数值特征构建的问题，提出了使用深度神经网络的内部表示（嵌入）作为自动特征工程的方法。通过自然语言处理和计算机视觉任务，我们发现了真实数据与生成数据之间的固有可分离性，并提供了对数据异质性的可理解解释。

Aug, 2024

理解生成性人工智能内容与嵌入模型

本研究解决了高质量数值特征构建的问题，利用现代深度神经网络的嵌入表示作为自动化的特征工程方法。研究结果表明，这些嵌入能够揭示非结构化数据中的可解释高层概念，并证实真实数据与AI生成数据之间存在固有的可分性，这对数据分析和AI模型的理解具有重要影响。

Aug, 2024

数据核视角空间中生成模型表示的一致性估计

本研究解决了生成模型行为分析中的不同模型对同一查询产生不同信息的问题。通过理论结果，提出了一种新颖的方法来进行生成模型嵌入的一致性估计，尤其在查询集合和模型数量增加的情况下。这项工作可能对理解和比较生成模型的表现具有重要影响。

Sep, 2024