aMUSEd:一个开放的 MUSE 复现
Muse 是一种基于遮蔽建模任务在离散令牌空间中训练的文本到图像 Transformer 模型,借助预训练的大型语言模型,实现了高度还原原始文本意图的图像生成能力,同时也能够直接应用于图像编辑等任务。
Jan, 2023
本篇论文介绍了 MoMA:一种基于开放词汇、无需训练的个性化图像模型,具备灵活的零样本能力。利用开源的多模态大型语言模型(MLLM),我们训练 MoMA 同时担任特征提取器和生成器的双重角色。该模型通过引入一种新颖的自注意力快捷方法,高效地将图像特征传递给图像扩散模型,从而提高生成图像中目标对象的相似度。作为一个调优自由、即插即用的模块,与其他方法相比,我们的模型只需一个参考图像即可生成具有高细节保真度、增强身份保留性和忠实响应的图像。我们的工作是开放源代码的,从而为所有人提供这些先进技术的通用访问。
Apr, 2024
本研究提出了使用扩散模型生成高质量全场数字乳腺 X 线照片以及使用稳定扩散模型在健康乳腺照片上修复合成病变的方法,并引入了一个由文本提示控制的生成模型管道 MAM-E,能够在乳房特定区域生成合成病变,并提供了对生成图像的定量和定性评估以及易于使用的图形用户界面用于乳腺 X 线影像合成。
Nov, 2023
提出了一种无需注释,挖掘多视的图像对来训练自监督模型,来提高预训练数据集的效果;在深度估计、语义分割等任务上,相比于基于注释的预训练和冻结表示,使用提出的 MIMIC 数据集训练的表示性能更好。
Jun, 2023
本文提出了一种自主监督的共享编码器模型,在数据、内存和运行时效率高的同时,在几个视觉、语言和多模式基准测试中取得了强大结果。
Apr, 2023
本文提出了一种新的用于无监督学习的模块化方法 MUSE,该方法使用灵活的模块来优化词义表示学习和有效的词义选择,并采用强化学习来进行联合训练。实验证明,该方法在同义词选择和语境词相似性方面具有最先进的性能。
Apr, 2017
在自动驾驶汽车中实现第五级驾驶自动化需要一个强大的语义视觉感知系统,它能够解析来自不同传感器的数据,并适应多种条件。为了解决现有语义感知数据集中通常缺乏自动驾驶汽车中常用的重要非相机模式,或者未能利用这些模式来帮助和改善具有挑战性条件下的语义注释的问题,我们引入了 MUSES,即用于在恶劣条件下以增加的不确定性驾驶的多传感器语义感知数据集。MUSES 包括在多样化的天气和照明条件下捕获的 2500 张图像的同步多模态记录,并具有 2D 全景注释。该数据集整合了帧相机、激光雷达、雷达、事件相机和 IMU/GNSS 传感器。我们的新型两阶段全景注释协议捕捉了真实值中的类别级别和实例级别的不确定性,引入了我们的新任务 —— 不确定性感知全景分割,并同时提供标准的语义分割和全景分割。MUSES 在多样的视觉条件下既对训练有效又具有挑战性,为多模态和不确定性感知中的研究开辟了新的途径。我们的数据集和基准将公开提供。
Jan, 2024
采用隐式微分技术来提高性能,减少数值误差,并消除在层次贝叶斯推断中需要用户调整的 MUSE 算法。我们在三个典型的推断问题上展示了这些改进,并且在我们的测试案例中,MUSE 隐式微分的速度比 Hamiltonian Monte Carlo 分别快了 155、397 和 5 倍,在没有隐式微分的情况下分别快了 65、278 和 1 倍,并产生了好的近似边际后验分布。Julia 和 Python MUSE 软件包已经更新为使用隐式微分,并且可以解决手动定义或使用任何流行的概率编程语言和自动微分背景定义的问题。
Sep, 2022
本研究旨在探索并提出一种并行多尺度表示学习方法,利用自注意力和点对点转换,对序列数据进行多尺度编码和建模,实现长距离和短距离结构中的机器翻译任务,该方法在三个主要机器翻译任务中表现优异,并具有加速推理的潜力。
Nov, 2019