GAN 中潜在发现的自监督增强

AAAIDec, 2021

Self-supervised Enhancement of Latent Discovery in GANs

Silpa Vadakkeeveetil Sreelatha, Adarsh Kappiyath, S Sumitra

TL;DR本文提出了一种使用自监督方法训练的规模排序估计器（SRE）来增强现有无监督解缠技术获得的方向的解缠效果。使用定性和定量评估方法证明了该方法可以显著提高各种数据集中的解缠效果，并且还表明学习得到的规模排序估计器可以用于执行基于属性的图像检索任务而不需要进一步的训练。

Abstract

Several methods for discovering interpretable directions in the latent space of pre-trained gans have been proposed. latent semantics disc

interpretable directions gans latent semantics self-supervision disentanglement

发现论文，激发创造

统一转换：变分自编码器中的潜在表示优化

通过引入一种新颖的可适应三阶段均匀变换（UT）模块，解决变分自编码器中的潜在空间不规则分布问题，该模块包括高斯核密度估计（G-KDE）聚类、非参数高斯混合建模（GM）和概率积分变换（PIT），通过将不规则分布重新配置成潜在空间中的均匀分布，显著增强了潜在表示的分离性和可解释性，克服了传统 VAE 模型在捕捉复杂数据结构方面的局限性。实证评估表明，我们提出的 UT 模块在改善标准数据集（dSprites 和 MNIST）上的分离度度量方面非常有效。研究结果为推进表示学习技术指明了有希望的方向，并为将该框架扩展到更复杂数据集和下游任务的未来研究提供了启示。

Jul, 2024

面向多模态开放领域泛化和自适应的自监督方法

本研究提出了一种利用自我监督方法解决多模态开放领域泛化（MM-OSDG）问题的新途径，引入了两个创新的多模态自我监督预训练任务：遮蔽跨模态翻译和多模态拼图。这些任务有助于学习多模态代表性特征，提高泛化和开放类别检测能力，并提出一种新颖的熵权重机制来平衡不同模态的损失。此外，我们还扩展了该方法以解决多模态开放领域自适应（MM-OSDA）问题。实验证明了该方法在多个数据集上的有效性和多样性。

Jul, 2024

周期对应损失函数：从无标记和无序的 RGB 图像学习稠密的视角不变视觉特征

通过使用循环一致性思想，引入循环对应损失（CCL）实现视角不变的密集描述符的学习，从而达到优于其他自监督方法且接近有监督方法的性能，无论是在关键点跟踪还是机器人抓取下游任务方面。

Jun, 2024

基于概念的大规模多模态模型可解释性框架

借助大型多模态模型（LMMs），本文提出了一种新颖的解释框架，通过字典学习的方法应用于令牌的表示，准确地解释了多模态概念，并定量和定性地评估了学习到的概念在视觉和文本方面的相关性与质量。

Jun, 2024

基于 Transformer 的时间序列合成综述

在图像和语言领域，生成式人工智能已经引起了很大关注，使用转换器神经网络持续主导最新技术。然而，将这些模型应用于时间序列生成的研究尚不充分，而这对于机器学习、隐私保护和可解释性研究具有极大的实用价值。本综述通过识别转换器、生成式人工智能和时间序列数据这一稀缺研究子领域，回顾了已有的研究工作。回顾的工作方法多样，但尚未就该领域提出解决问题的确定答案。在最初进行的调查中，除了转换器之外，还遇到了 GANs、扩散模型、状态空间模型和自编码器。虽然该领域还没有提供确定性的洞见，但是已经回顾的工作具有很大的启发性，并提供了一些建议的最佳实践和有价值的未来工作建议。

Jun, 2024

音频蟒蛇：用于自监督音频表示的选择性状态空间

提出了一种名为 Audio Mamba 的选择性状态空间模型，通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明，预训练于 AudioSet 数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图 Transformer (SSAST) 基线，表现出更好的数据集大小、序列长度和模型大小的对比性能。

Jun, 2024

使用 VAE 集成比较表示空间的信息内容与解缠

用机器学习将数据集的信息划分为有意义的片段，通过研究多次训练运行中学习的通道作为信息片段的整合，并将表示子空间视为数据嵌入的概率分布进行相似度比较，最终实现 VAE 的集成学习以提升信息内容。

May, 2024

无需训练数据集的条件生成对抗网络

给定一个无限制的预训练生成网络和一个预训练分类器，通过不依赖于任何训练数据集，开发一个条件生成器是否可行？

May, 2024

促进大型语言模型在在线求职和招聘中的多角色和多行为协作

在线招聘服务的出现已经彻底改变了求职和招聘的传统模式，本研究致力于提高个人与职业的匹配度，通过引入模拟面试的过程，从而为候选人评估提供额外的证据，增强了传统基于简历和职位描述的人 - 职位匹配方式。提出了一种创新可行的模拟面试框架 MockLLM，通过面试生成和握手协议中的双方评估两个模块，通过让面试官和候选人之间协同行为来提高其性能，同时设计一种多角色和多行为的角色扮演框架，使单个语言模型代理能够以多个功能有效地与双方交互。此外，还提出了反思记忆生成和动态提示修改技术，以改进双方的行为，实现对增强的额外证据的持续优化。详细的实验结果表明，MockLLM 在人 - 职位匹配和模拟面试质量方面表现出了最佳性能，展示了其在未来在线招聘中的应用前景。

May, 2024

WIDIn：面向单源域泛化的领域不变表示的词语图像

通过使用自我监督框架 WIDIn 并结合细粒度对齐的语言嵌入方式，实现了去除视觉表示中的领域特定成分，从而提供了一种可以应用于预训练的视觉 - 语言模型以及单模态模型的方法。在三个领域通用数据集上进行的实验验证了我们方法的有效性。

May, 2024