GAN 中潜在发现的自监督增强
通过引入一种新颖的可适应三阶段均匀变换(UT)模块,解决变分自编码器中的潜在空间不规则分布问题,该模块包括高斯核密度估计(G-KDE)聚类、非参数高斯混合建模(GM)和概率积分变换(PIT),通过将不规则分布重新配置成潜在空间中的均匀分布,显著增强了潜在表示的分离性和可解释性,克服了传统 VAE 模型在捕捉复杂数据结构方面的局限性。实证评估表明,我们提出的 UT 模块在改善标准数据集(dSprites 和 MNIST)上的分离度度量方面非常有效。研究结果为推进表示学习技术指明了有希望的方向,并为将该框架扩展到更复杂数据集和下游任务的未来研究提供了启示。
Jul, 2024
本研究提出了一种利用自我监督方法解决多模态开放领域泛化(MM-OSDG)问题的新途径,引入了两个创新的多模态自我监督预训练任务:遮蔽跨模态翻译和多模态拼图。这些任务有助于学习多模态代表性特征,提高泛化和开放类别检测能力,并提出一种新颖的熵权重机制来平衡不同模态的损失。此外,我们还扩展了该方法以解决多模态开放领域自适应(MM-OSDA)问题。实验证明了该方法在多个数据集上的有效性和多样性。
Jul, 2024
通过使用循环一致性思想,引入循环对应损失(CCL)实现视角不变的密集描述符的学习,从而达到优于其他自监督方法且接近有监督方法的性能,无论是在关键点跟踪还是机器人抓取下游任务方面。
Jun, 2024
借助大型多模态模型(LMMs),本文提出了一种新颖的解释框架,通过字典学习的方法应用于令牌的表示,准确地解释了多模态概念,并定量和定性地评估了学习到的概念在视觉和文本方面的相关性与质量。
Jun, 2024
在图像和语言领域,生成式人工智能已经引起了很大关注,使用转换器神经网络持续主导最新技术。然而,将这些模型应用于时间序列生成的研究尚不充分,而这对于机器学习、隐私保护和可解释性研究具有极大的实用价值。本综述通过识别转换器、生成式人工智能和时间序列数据这一稀缺研究子领域,回顾了已有的研究工作。回顾的工作方法多样,但尚未就该领域提出解决问题的确定答案。在最初进行的调查中,除了转换器之外,还遇到了 GANs、扩散模型、状态空间模型和自编码器。虽然该领域还没有提供确定性的洞见,但是已经回顾的工作具有很大的启发性,并提供了一些建议的最佳实践和有价值的未来工作建议。
Jun, 2024
提出了一种名为 Audio Mamba 的选择性状态空间模型,通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明,预训练于 AudioSet 数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图 Transformer (SSAST) 基线,表现出更好的数据集大小、序列长度和模型大小的对比性能。
Jun, 2024
用机器学习将数据集的信息划分为有意义的片段,通过研究多次训练运行中学习的通道作为信息片段的整合,并将表示子空间视为数据嵌入的概率分布进行相似度比较,最终实现 VAE 的集成学习以提升信息内容。
May, 2024
在线招聘服务的出现已经彻底改变了求职和招聘的传统模式,本研究致力于提高个人与职业的匹配度,通过引入模拟面试的过程,从而为候选人评估提供额外的证据,增强了传统基于简历和职位描述的人 - 职位匹配方式。提出了一种创新可行的模拟面试框架 MockLLM,通过面试生成和握手协议中的双方评估两个模块,通过让面试官和候选人之间协同行为来提高其性能,同时设计一种多角色和多行为的角色扮演框架,使单个语言模型代理能够以多个功能有效地与双方交互。此外,还提出了反思记忆生成和动态提示修改技术,以改进双方的行为,实现对增强的额外证据的持续优化。详细的实验结果表明,MockLLM 在人 - 职位匹配和模拟面试质量方面表现出了最佳性能,展示了其在未来在线招聘中的应用前景。
May, 2024
通过使用自我监督框架 WIDIn 并结合细粒度对齐的语言嵌入方式,实现了去除视觉表示中的领域特定成分,从而提供了一种可以应用于预训练的视觉 - 语言模型以及单模态模型的方法。在三个领域通用数据集上进行的实验验证了我们方法的有效性。
May, 2024