- 大型语言模型中自我评估提高选择性生成
使用大型语言模型进行自我评估可以提高生成内容的准确性,并与生成内容的整体质量更好地相关。
- CMMD:视频 - 音频条件建模的对比多模态扩散
我们介绍了一种多模态扩散模型,专为视频和音频的双向条件生成而设计。通过引入联合对比训练损失来增强视听事件的同步,我们认识到在多模态生成任务中准确对齐视频和音频事件的重要性。我们的研究方法包括对多个数据集进行全面实验,以全面评估我们所提出的模 - CAT-DM:具有扩散模型的可控加速虚拟试衣
提出了一种基于扩散模型的可控加速虚拟试衣网络(CAT-DM),该网络通过使用 ControNet 引入额外的控制条件和改进服装图像的特征提取,对传统的扩散模型进行了改进,并且能够在不降低生成质量的情况下减少采样步骤。与基于 GAN 和基于扩 - EucliDreamer: 快速而高质量的稳定扩散深度三维模型纹理化
本文采用一种新方法,通过给定文本提示和 3D 网格来生成 3D 模型的纹理。该方法考虑了额外的深度信息,利用深度条件稳定扩散的评分蒸馏采样过程生成纹理。我们在开源数据集 Objaverse 上运行了模型,并进行了用户研究,与各种 3D 纹理 - FreePIH:无需训练的画家风格图像和谐化与扩散模型
提供了高效的无需训练的画家式图像协调(PIH)方法,称为 FreePIH,仅利用预训练的扩散模型实现最先进的协调结果。通过将降噪过程作为插件模块应用于前景图像的风格转移,以直接基于降噪实现协调,结合多尺度特征来保证协调图像的忠实度,并提高生 - 蓄意风险控制:用于大型语言模型负责任部署的严密框架
大型语言模型的能力提升引发了对如何最好地提示模型执行给定任务的兴趣,为了减轻最坏结果风险并促进负责任的部署,我们提出了 Prompt Risk Control 框架,通过对一系列信息风险度量的严格上界选择提示,成功改善了生成质量中的分歧。
- 投机的对比解码
通过对大型语言模型进行推测性对比解码,提高了生成质量的同时节省了计算资源。
- 定制的生成流模型求解器
介绍了一种新的框架 ——“定制 ODE 求解器”,用于构建针对预训练流模型的自定义 ODE 求解器,优化了顺序一致和参数高效的求解器,并在逼近质量和生成质量方面与专用求解器相比显著提高。
- EMNLPNASH: 一个简单统一的结构剪枝加速编码 - 解码语言模型框架
通过研究解耦编码器和解码器组件的结构修剪方法在编码器 - 解码器模型上的行为,本研究发现解码器层数是推理速度的主要因素,修剪编码器网络得到低稀疏度可以提高生成质量。基于这些发现,提出了一种简单而有效的框架 NASH,可以缩短编码器和解码器网 - 几何消除:基于几何的扩散模型中隐含概念的去除
通过个性化数据集对扩散模型进行微调是一种被认可的方法,可以在下游任务中提高生成质量,然而,这种方法常常会无意中生成水印和 QR 码等意外概念,这是由于特定下游任务中图像来源和收集方法的限制所引起的。我们提出了一种新方法,即 methodna - 去噪扩散自适应模型
该论文介绍了一种名为 Denoising Diffusion Step-aware Models (DDSM) 的新型框架,通过使用一系列根据每个生成步骤重要性进行自适应调整的神经网络,以进化搜索的方式解决了生成过程中存在的整体网络计算的瓶 - 通过草堆中的靓丽针使图像生成模型更上一层楼
通过在网络规模的图像 - 文本对上训练文本到图像模型,可以从文本生成广泛的视觉概念,但是这些经过预训练的模型在生成高度美学化图像方面往往面临挑战,因此需要进行美学对齐的预训练后处理。本文中,我们提出了质量微调方法,以有效地指导经过预训练的模 - Diffusion U-Net 中的免费午餐
我们利用扩散 U-Net 的潜力,提出了一种名为 “FreeU” 的简单而有效的方法,通过重新加权 U-Net 的跳跃连接和骨干特征图的贡献,结合两个组件的优势,大大提高了生成质量。
- 逐步解毒语言模型
针对语言模型的解毒具有挑战性,本文提出了分解解毒过程、基于无毒提示的连续生成以及使用 Detox-Chain 进行有序连接的方法来实现显著的解毒和生成改进。
- 神经网络三维关节先验 (NAP)
该研究提出了神经 3D 关节先验(NAP),这是第一个合成 3D 关节物体模型的 3D 深度生成模型,可以通过设计关节树 / 图参数化来生成关节物体,同时使用图 - 注意力去噪网络捕获几何和运动结构的分布,并使用一种新颖的距离度量来评估生成 - KNN-LM 不会改善开放式文本生成
研究插值检索增强语言模型的生成质量,插值检索增强的语言模型通过使用给定前缀的最相关检索进行插值来预测下一个词的分布,发现这种方法对于母猪鼻子的下一个词比较准确,但对于开放式的文本生成质量并没有相应的改善,同时发现对于模型生成的文本作为查询时 - DIRECTOR:用于监督语言建模的生成器 - 分类器
本文介绍了一个新的基于统一生成器 - 分类器框架的 Director 语言模型,该模型结合语言建模和分类学习,并使用包括有利和不利序列标记的数据进行训练,实验证明该模型相较于标准语言模型可以大幅减少毒瘤响应、重复性、矛盾等问题,在保持生成质 - 预训练是图像到图像翻译的全部所需
本文提出一种基于预训练的图像到图像翻译方法,采用一个通用的 framework 将先前 image-to-image 方法中需要精心设计的结构转化为 downstream 任务,并引入了一个预处理的 diffusion model 和敌对训 - CVPR极性抽样:通过奇异值控制预训练生成网络的质量和多样性
本文提出了一种基于连续分段仿射样条的深层生成网络 (DGN) 输出空间分布的极性采样方法,该方法可以提高不同条件下 DGN 的生成质量和多样性。
- 基于对应学习和网格细化的三维姿态转移
该论文提出了一种对人类和动物网格控制姿势的方法,该方法通过优化传输问题建立源网格和目标网格之间的对应关系,并使用弹性实例归一化的条件归一化层来提高生成网格的质量。