- 生成 AI 虚构率估计
这项工作是关于使用生成性人工智能估计上下文学习(ICL)的幻觉率。我们开发了一种新方法,用于估计条件生成模型在 ICL 问题上生成幻觉的概率。我们在合成回归和自然语言 ICL 任务上对我们的方法进行了实证评估。
- 离线基于模型优化的设计编辑
离线基于模型的优化(MBO)旨在最大化黑箱目标函数,仅使用设计和分数的离线数据集。我们引入一种名为离线模型优化设计编辑(DEMO)的新方法,通过在离线数据集上应用训练好的代理模型的梯度上升来产生一个合成数据集,用于训练条件扩散模型以生成高分 - AAAI基于数据无关的广义零样本学习
基于 CLIP 基类分类器的无数据零样本学习方法提出了一个通用框架,该框架包含三个主要组成部分:基于 vMF 分布建模基类数据的虚拟特征恢复、特征 - 语言输入调整以进一步对齐虚拟图像特征和文本特征、使用对齐后的特征训练条件生成模型,可以生 - 单视角材料估计的内在图像扩散
使用内在图像扩散,我们提出了一种室内场景外观分解的生成模型。通过给定单个输入视图,我们对多个可能的材质解释进行采样,这些解释由反照率、粗糙度和金属性地图表示。通过引入概率形式来处理外观分解的挑战,我们利用了最近在大规模真实世界图像上训练的强 - UpFusion:基于未姿态稀疏视角观测的新视角扩散
UpFusion 是一个系统,可以在没有对应姿态信息的情况下,根据稀疏的参考图像执行新视角合成和推断对象的三维表示。
- 音乐形式生成
该论文介绍了一种生成结构化的、任意长度的音乐作品的方法,其中利用条件性生成模型创建了音乐片段,并通过转换连接这些片段,然后利用大型语言模型提出音乐形式建议。
- ICCVContactGen:生成性接触模型用于夹取生成
该论文提出了一种新颖的以物体为中心的接触表示方法 ContactGen,用于手 - 物体交互。ContactGen 包括三个组成部分:接触位置的接触图,接触手部的部分图以及每个部分内的接触方向的方向图。通过给定输入物体,我们提出了一个条件生 - TextField3D:以噪音文本字段提升开放式词汇的 3D 生成
通过将动态噪声注入给定文本提示的潜在空间中,我们引入了一种条件 3D 生成模型,称为 TextField3D。与之前的方法相比,TextField3D 具有三个优点:1)大词汇量,2)文本一致性,3)低延迟。广泛实验证明,我们的方法具有潜在 - 语言建模即压缩
通过压缩模型来解决预测问题和训练大型语言模型的相关研究,大型语言模型展现出强大的预测和压缩能力,此视角为规模定律、分词和上下文学习提供了新的观点,并且可以使用任何压缩器构建条件生成模型。
- 使用引导扩散模型合成罕见白内障手术样本
通过对白内障手术视频数据的分析,我们利用一种基于去噪扩散隐式模型(DDIM)和无分类器指导(CFG)的条件生成模型,能够根据复杂的多类别多标签条件(如手术阶段和手术工具组合)合成多样化、高质量的样本,并证实这些合成样本的工具能被分类器识别, - 无语言语言无关的通过解耦精化方式的组合动作生成
本研究介绍了一种新框架来生成组合动作,该方法不依赖语言辅助,包括三个主要组成部分:动作耦合、条件动作生成和解耦调整。通过利用能量模型提取子动作的注意力掩码,整合两个动作生成伪训练示例。然后使用条件生成模型 CVAE 来学习潜在空间以促进多样 - 基于形状 - 图像 - 文本对齐潜在表示的 Michelangelo 条件 3D 形状生成
本文提出利用对齐预处理的方法来生成 3D shape,通过 shape-image-text-aligned space 对三种模态进行转换,并且通过两种模型提升生成效果
- 利用前向模型的扩散:无需直接监督解决随机逆问题
本文提出了一种基于去噪扩散概率模型的条件生成模型,通过把一个已知的、可求导的正向模型集成到去噪过程中,实现了间接观测信号的采样, 并在三项具有挑战性的计算机视觉任务中进行了验证。
- 探寻生成式数据增强的本质
研究表明,生成数据增强应用于特定学习任务时,如(半)监督学习,少样本学习和敌对鲁棒学习等,可以提高分类性能。本文深入研究了生成数据增强在非独立同分布设置中的表现,证明了其学习速度可以更快,而且在训练集较小的情况下可以提高学习保证级别。
- 有条件生成模型的数据遮蔽
本文研究了如何在已经训练好的条件生成模型上进行后编辑,以消除某些条件性,从而以较高的概率消除不良内容,这是通过提取模型中的条件网络实现的,该方法在保持高生成质量的同时,计算轻便,用于深度生成模型的类别具有普适性、高效性和可控性,实验结果表明 - 利用基于梯度的摘要统计信息改善摊余后验近似
通过交替生成和训练条件生成模型,本研究设计出一种迭代框架来提高基于贝叶斯逆问题的后验分布的分析逼近,从而实现迭代改善逼近效果的自动化过程,并检验了在人脑超声成像中的应用情况。
- 可控视觉触觉合成
本研究使用深度生成模型创建一个多感官体验,用户可以在触觉表面上滑动手指,触摸和查看合成物体,并提出了一种新的视触觉服装数据集和条件生成模型以合成视觉和触觉输出,并介绍了一个流水线,在基于电除尘的触觉设备上呈现高质量的视觉和触觉输出,实现沉浸 - Shap-E: 生成有条件三维隐式函数
Shap-E 是一种基于条件生成模型的 3D 资产生成方法,其直接生成可以呈现为纹理网格和神经辐射场的隐式函数参数,能够在几秒钟内生成复杂和多样化的 3D 资产,并已通过对 Point-E 模型进行比较,证明其收敛速度更快且显示质量可媲美或 - 3DLinker: 一种 E (3) 等变可变自编码器用于分子连接器设计
本研究提出一个命名为 3DLinker 的条件生成模型,以生成用于连接具有独立功能的两个分子的链接物,该模型可以预测锚点,以及联合生成链接器图形和它们的 3D 结构,具有较高的恢复分子图形的率和准确地预测所有原子的 3D 坐标的表现。
- AAAIElectra:基于条件生成模型的谓词感知查询近似
本篇论文提出了一种基于条件生成模型的谓词感知式近似查询处理系统 ELECTRA,能够在具有大量谓词的分析查询中提供更低的 AQP 误差。