- 多种医学模态下的合成数据生成人工智能:最新发展及挑战的系统综述
本研究综述了生成模型在合成各种医学数据类型方面的广泛应用,探索了合成应用、生成技术和评估方法等方面的见解,强调了医学数据的唯一性和临床应用的需求。同时,研究也揭示了医学图像评估方法的不足之处,呼吁进行深入评估、基准测试和比较研究以促进开放和 - CVPR野外无干扰 NeRFs 的即时利用不确定性
通过简单高效的方法,在复杂的野外场景中从仅仅随意捕捉的图像序列中合成新视角,去除干扰物以及极大地提高收敛速度,从而显著改进了现有技术,为 NeRF 在各种多样化的动态现实应用中开辟了新的研究方向。
- 单目胃镜中的新视角合成的神经辐射场
从预先获取的单眼胃镜图像中,构建胃内任意新视角图像合成是胃部诊断中一个有前途的课题。本文应用新兴的神经辐射场技术(NeRF)将单眼胃镜数据转化为合成逼真图像,通过引入几何先验提高了图像渲染质量,在胃内展示了高保真度的新视角图像。
- 基于增强学习的实用高效量子电路综合与映射
通过使用强化学习方法,将其整合到量子传递工作流中,实现了量子电路的综合和路由优化,且在速度和优化的效果上明显超越其他方法,在实际的量子传递过程中显示出很高的实用性。
- 声音之图像:将图像和声音合成于单一画布上
通过使用预训练的文本到图像和文本到频谱扩散模型,在共享潜在空间中,简单地合成具有视觉外观和声音的自然图像样本。
- 音乐一致性模型
MusicCM 利用一致性模型来高效合成音乐剪辑的 mel - 频谱图,通过最小化采样步骤保持高质量,并通过多个扩散过程生成连贯的音乐,实现了计算效率、保真度和自然性的有效性。
- 使用联邦学习改善基于 GAN 的脂肪抑制的多中心推广能力
利用生成对抗网络(GAN)从非脂肪抑制脉冲序列合成脂肪抑制 MRIs,有助于加快膝关节 MRI 的获取。然而,在单一场地数据训练的 GAN 的普适性较差。我们发现联邦学习可以提高 GAN 合成脂肪抑制 MRIs 的多中心普适性,同时促进保护 - 基于扩散的光场合成
通过仅使用单个 RGB 图像作为输入,LFdiff 采用基于扩散的生成框架针对光场合成进行设计,利用单目深度估计网络估计视差并结合新颖的条件方案和面向光场数据的噪声估计网络。实验结果表明,LFdiff 在综合光场合成方面具有卓越表现,并且生 - Transduce:学习用于字符串转换的转导文法
从输入输出示例中综合字符串转换程序,利用各种技术,基于归纳偏差,包含一组受限基本运算符进行组合。提出了一种新算法 Transduce,基于抽象转导语法及其概括。我们通过实验证明,Transduce 可以在没有归纳偏差的情况下有效地学习位置转 - 稳定的扩散参考模型:图像提示和蓝图共同指导的多条件扩散次级绘画模型
通过使用仅两种类型的条件图像对生成进行精确控制,我们提出了一种新的方法 Stable Diffusion Reference Only,它是一个仅参考图像到图像的自监督模型,加速了二次绘画。我们在动画、漫画和二次创作领域实现了最先进的结果, - 自主系统的形式方法
给出关于应用形式方法于自治系统领域的当前最新研究状态的概述,包括系统的合成、不确定性的概念、采用形式方法的学习系统的行为界限、系统的监测以及形式方法在强化学习、不确定性、隐私、可解释性、规制和认证方面的未来发展方向。
- 基于数据驱动的体积先验模型用于少样本超高分辨率人脸合成
提出了一种新颖的体积化人脸先验模型来合成不同于训练分布的主体的超高分辨率新视角,仅需要两个随意拍摄图像的输入视图。
- 基于 MRI 标记和非负矩阵分解的语音音频合成通过可塑变压器
我们提出了一种基于深度学习的框架,通过加权映射生成语音音频波形,从功能单元推导到音频合成的实验结果表明其优于传统的卷积和 Transformer 模型。
- 无需专家标签的稳健车辆导航的激光雷达视图合成
利用深度学习模型和合成技术从不同角度生成额外的 LiDAR 点云数据,为自动驾驶汽车提供多样化的训练数据,以增强模型的稳健性。
- 使用自动机理论来合成二值化神经网络
该研究论文提出了一种自动机理论方法,通过量化深度神经网络,特别是二值化神经网络,来减少计算与存储成本,并通过表格法实现综合过程,使用 SMT 求解器确定网络的超参数,并在实验中证明其在提高神经网络的个体公平性和局部鲁棒性方面的有效性。
- Blended-NeRF: 在现有的神经辐射场中生成和混合零样本目标
Blended-NeRF 是一种基于文本提示或图像贴片及 3D ROI 盒子的方法,利用预训练的语言 - 图像模型来操纵合成并混合一个新对象到现有的 NeRF 场景中实现对现有场景感兴趣区域的编辑,使用新颖的容积混合技术进行无痕混合。
- 用可解释的铺点表示对漫画重新筛查
提出了一种基于可解释的屏幕色调表示法的自动漫画滤镜生成方法,可有效地降低漫画创作中的人力成本.
- 使用音译法进行突厥语的多语言语音合成
该研究旨在开发一个针对十种低资源的土耳其语言的多语言文本到语音 (TTS) 合成系统,特别针对零样本学习场景,通过用 Tacotron 2 架构基于哈萨克语的数据训练端到端 TTS 系统,基于将土耳其字母映射到国际音标 (IPA) 符号并转 - 快速跨模态 MRI 重建的空间与模态最优传输
本文通过引入辅助模态 (T1WI) 加速获取 T2WI,实现 T2WI 重建并建立跨模态合成任务来提高 T2WI 重建准确度。
- 神经 LiDAR 场用于新视角合成
本文提出了一种基于神经场的雷达(NFL)方法,该方法旨在从 LiDAR 测量中优化神经场场景表示,以便合成来自新视点的逼真的 LiDAR 扫描。该方法与 LiDAR 传感过程的详细、物理上可靠的模型相结合,能够准确地再现关键传感器行为,如光