- GaussianDreamerPro:具有极高质量的可操作三维高斯文本
提出了一种名为 GaussianDreamerPro 的新框架,通过将高斯函数与合理几何形状相结合,逐步丰富几何与外观,构建了与以前方法相比具有显着改进细节和质量的 3D 高斯函数绑定网格的生成资产,可无缝集成于下游操作流水线,大大扩展了其 - COT Flow:通过对比对学习最优转运图像采样和编辑
Diffusion models suffer from computationally expensive iterative generation, limited editing flexibility, and Gaussian n - BitsFusion:扩散模型的 1.99 位权重量化
通过开发一种新的权重量化方法,将稳定扩散 v1.5 的 UNet 模型量化为 1.99 位,实现模型尺寸减小 7.9 倍,同时展现更好的生成质量。
- MoLA: 运动生成与编辑的潜在扩散增强对抗训练
该论文提出了一种名为 MoLA 的快速高质量运动生成框架,能够处理多项编辑任务,并利用变分自动编码器和潜在扩散模型实现高质量的快速生成。此外,还应用了一种无需训练的引导生成框架来实现各种编辑任务,从而证明了对抗性学习在文本到运动生成中的有效 - Freeplane: 三面战机稀疏视图重建模型中的自由午餐解锁
通过对三角面的调制,我们提出了一种简单而有效的方法,用于提高前馈模型的生成质量,无需额外训练,且能够无缝集成到预训练模型中以增强其对生成多视图图像不一致性的鲁棒性。
- 最近邻假设解码用于 LLM 生成和归因
利用最近邻推断的半参数化语言模型, NEAREST 引入了最近邻预测解码,可以高效提高生成质量和属性率。
- 通过稀疏上下文选择加速检索辅助生成的推理
通过引入稀疏技术,Sparse RAG 提出了一种新颖的范式,在提高生成质量的同时减少计算成本,通过并行编码检索文档并选择性地解码输出,既降低了延迟,又提升了模型的焦点和生成质量。
- 图生成的离散状态连续时间扩散
本文提出了一种离散状态连续时间设置的图扩散生成模型,该模型在以前的图扩散模型中从未被研究过。分析表明,我们的训练目标与生成质量密切相关,我们提出的生成框架在节点排序的排列方面具有理想的不变 / 等变特性。我们的模型在各种基准测试中表现出有竞 - DESTEIN: 通过通用导航对偶和头部激活融合实现语言模型的过滤式导航
该研究提出了 DeStein,一种通过调整激活空间内的内部表示来净化语言模型的新方法,该方法在资源和时间成本较低的情况下实现了混合解毒向量和原始表示,实证结果表明该方法在常用的解毒评估指标上明显优于现有的最先进方法,并保持了令人满意的生成质 - 语言模型中的不确定性:通过排名校准进行评估
开发了一种名为 “Rank-Calibration” 的新颖实用框架,用于评估语言模型的不确定性和置信度,通过量化与生成质量的关系偏差的方式,消除了二进制阈值化的需求,并在实证验证中展示了方法的广泛适用性和细粒度可解释性。
- EDT: 基于熵的动态温度采样改进大型语言模型的生成
提出一种基于熵的动态温度抽样方法来平衡生成质量和多样性,实验结果表明在不同任务上 EDT 显著优于现有策略。
- SyncTweedies: 基于同步扩散的通用生成框架
通过同步多个扩散过程,我们引入了一个生成多样化视觉内容(包括模糊图像、全景图像、网格纹理和高斯斑点纹理)的通用框架,并通过一个标准空间对同步多个扩散过程的所有可能情况进行了详尽研究,并分析了它们在各种应用中的特点。在此过程中,我们揭示了一个 - PipeRAG: 通过算法系统协同进行快速检索增强生成
通过引入 PipeRAG 算法,结合管道并行处理、灵活的检索间隔和性能模型自动平衡检索质量和延迟,可以在减少生成延迟的同时提高生成质量,为未来的 RAG 系统的采用铺平了道路。
- 基于扩散模型的人脸交换
基于扩散模型的人脸交换技术,利用 IP-Adapter、ControlNet、以及 Stable Diffusion 的修复工艺实现人脸特征编码、多条件生成和修复操作,更进一步通过面部指导优化和 CodeFormer 进行混合提高生成质量。
- EFUF:用于减轻多模态大语言模型中幻觉的高效细粒度遗忘框架
多模式大语言模型 (MLLMs) 在过去几年中引起了越来越多的关注,但它们可能会生成包含图片中不存在的对象的描述,这被称为对象幻觉。为了消除幻觉,已有的方法手动注释带有和不带幻觉的成对响应,然后采用各种对齐算法改进图像和文本之间的对齐能力。 - 非可交换的最近邻一致性语言生成
通过利用最近对非交换式依从预测的研究结果,我们提出了一种新的统一预测框架的扩展,名为非交换式依从核心采样,用于基于最近邻的生成。我们的方法可以后处理任意模型,提供具有统计保证的标记级预测集,并且在机器翻译和语言建模实验中展示了令人鼓舞的生成 - FreGrad:轻量级高速频率感知扩散语音合成器
本文旨在使用一种轻量级和快速的扩散基声码器(FreGrad)生成逼真的音频。通过离散小波变换将复杂波形分解为子带小波,以帮助 FreGrad 在简单的特征空间上进行操作;设计了一种频率感知膨胀卷积,提高频率感知性,产生具有准确频率信息的语音 - UniHuman: 一款用于编辑野外人像的统一模型
UniHuman 是一个统一的模型,通过利用人类视觉编码器的指导和引入轻量级的姿势扭曲模块来提高模型的生成质量和泛化能力,并在真实环境中解决了人类图像编辑的多个方面。
- 大型语言模型中自我评估提高选择性生成
使用大型语言模型进行自我评估可以提高生成内容的准确性,并与生成内容的整体质量更好地相关。
- CMMD:视频 - 音频条件建模的对比多模态扩散
我们介绍了一种多模态扩散模型,专为视频和音频的双向条件生成而设计。通过引入联合对比训练损失来增强视听事件的同步,我们认识到在多模态生成任务中准确对齐视频和音频事件的重要性。我们的研究方法包括对多个数据集进行全面实验,以全面评估我们所提出的模