一个带有判别识别算法的生成解析器
通过用户友好的图形界面,本研究探讨了使用 Hourglass Diffusion Transformer(HDiT)模型在 MIDI 钢琴卷帘图像上进行盖章区域修复的方法,并通过在特定区域添加额外噪音来增强音符生成。该方法通过像素空间的线性缩放以提供直观和可解释的控制,而不需要操作预训练自编码器提供的压缩潜在空间,并展示了其在旋律、伴奏和延续音符填充方面的成果,同时帮助增加音符密度以生成符合用户规格要求的音乐结构,甚至在这些结构超出训练数据分布的情况下仍然有效。
Jul, 2024
通过 qualitatively 评估精确生成人脸、群体和指定数量对象的图片,我们不仅检查了多个文本到图像模型的性能,还进行了社会偏见分析。我们发现,容量更大的模型生成的图片质量更高,但同时这些模型也存在固有的性别或社会偏见,从而更全面地了解了它们的影响和局限性。
Jun, 2024
研究融合预训练生成模型以增强目标生成模型训练的问题,提出使用 KL 散度加权重心作为最优融合机制,其中重心权重经过最优训练以最小化适合目标群体的适当损失。研究表明,通过使用基于扩散得分方法训练辅助生成模型时,可以高效地计算最优 KL 重心权重。此外,展示了当辅助模型适合其自身任务并且辅助任务组合能很好捕捉目标时,我们的融合方法在总变异距离的样本复杂度上是无维度限制的。我们提供了融合算法的简洁计算实现,并通过涉及混合模型和图像数据集的数值实验在低数据情况下验证其效率。
Jun, 2024
通过将用户的文本规格和性能偏好转化为物理四足机器人,Text2Robot 框架在几分钟内使用文本到 3D 模型,提供多样的初始骨架,再通过几何处理算法和身体控制协同优化,在一天内考虑真实世界的电子设备和可制造性,生成行走机器人。Text2Robot 实现了快速原型设计和开发生成模型的机器人设计新机遇。
Jun, 2024
本研究综述了生成模型在合成各种医学数据类型方面的广泛应用,探索了合成应用、生成技术和评估方法等方面的见解,强调了医学数据的唯一性和临床应用的需求。同时,研究也揭示了医学图像评估方法的不足之处,呼吁进行深入评估、基准测试和比较研究以促进开放和合作。
Jun, 2024
通过对于生成模型的 AI 生成图像的检测任务进行检验,本文提出了一个具有挑战性的 Chameleon 数据集和 AIDE 模型,通过多个专家同时提取视觉特征和噪声模式来识别 AI 生成图像,并在现有基准测试以及挑战性的 Chameleon 基准测试中取得了令人满意的结果。
Jun, 2024
我们提出了两种新模型 AutoCap 和 GenAu 来解决由于数据稀缺和标题质量不足造成的环境声音和效果生成问题,AutoCap 利用音频的元数据显著提高了标题的质量,而 GenAu 则通过使用新数据集进行训练,在生成的音频质量上取得了显著的改善。
Jun, 2024
通过新的概念空间框架分析模型的学习动态,在合成定义的玩具数据集上发现生成模型具备突然且一致地在训练过程中出现的潜在能力,虽然模型可能在普通输入提示下无法展示这些能力。
Jun, 2024
现有大规模扩散模型受限于生成 1K 分辨率图像,本文提出基于渐进方法的创新研究,在不增加额外训练成本的情况下,利用低分辨率图像辅助生成高分辨率图像,实现了对生成模型超越原有能力的探索和验证。
Jun, 2024