ORES:开放词汇的负责任视觉合成
本文介绍了 ORES:一种算法评分服务,支持在不同数据集上训练的多个独立分类器对 wiki 编辑进行实时评分,从而解耦了通常由工程师执行的许多活动。ORES 的设计旨在将关于维基百科算法的社会技术对话开放给更广泛的参与者。文中还讨论了 ORES 启用的社会变革机制的理论机制,并详细介绍了自其部署以来 5 年来围绕 ORES 的参与式机器学习案例研究。
Sep, 2019
自定义生成技术在不同背景下合成特定概念的技术已经取得了显著进展。多概念自定义是该领域内的一项具有挑战性的任务。现有方法往往依赖于训练多个低秩适应矩阵(LoRA)的融合矩阵,将各种概念合并到单个图像中。然而,我们发现这种直接方法面临两个主要挑战:1)概念混淆,即模型无法保留独特的个体特征,2)概念消失,即模型无法生成预期的主题。为了解决这些问题,我们引入了一种名为 LoRA-Composer 的无需训练的框架,用于无缝集成多个 LoRA,从而增强生成图像中不同概念之间的和谐。LoRA-Composer 通过概念注入约束来解决概念消失问题,通过扩展交叉注意机制增强概念可见性。为了对抗概念混淆,引入了概念隔离约束,对自注意力计算进行了改进。此外,提出了潜在重新初始化方法来有效激发指定区域内的特定概念潜在性。我们的广泛测试显示,与标准基线方法相比,LoRA-Composer 的性能有明显的提升,特别是在消除基于图像的条件(如边缘检测或姿势估计)时。代码发布在此 https URL
Mar, 2024
本文旨在通过提供一百万级的、人工合成的图像数据集 SyViC 和相应的数据生成代码,以及细调模型的策略,探讨如何提高视觉语言模型对非物体类词汇等方面(即超越名词的视觉语言概念)的理解和组合推理能力,从而在保持零样本准确度的前提下,极大提高模型的性能。通过在 ARO 和 VL-Checklist 等基准测试上的广泛实验和削减,我们证明了用人工合成数据进行训练可以在不牺牲零样本能力的情况下大幅提升其 VLC 理解能力(如在 ARO 上提高 9.9%,VL-Checklist 上提高 4.3%)。
Mar, 2023
本文提出了一种使用自然语言描述直接合成逼真图像的方法,它有很多有用的应用,例如智能图像操作。我们提出了一种端到端的神经架构,利用对抗学习自动学习隐式损失函数,实现语义分离并生成新图像。通过在 Caltech-200 鸟类数据集和 Oxford-102 花卉数据集上进行实验,我们证明了我们的模型能够合成符合描述要求的逼真图像,同时仍保留原始图像的其他特征。
Jul, 2017
本研究提出了一种新的方法,改进了生成对抗网络(GANs)训练的能力,可以根据文本输入合成多样的图像,这种方法基于条件版本的 GANs,扩展了前人利用判别器中的辅助任务,通过负样本采样来构造积极和消极的训练样例,通过牛津 102 花卉数据集的实验结果表明,生成的图像更具多样性,特别是当负样本逐渐靠近语义空间中的积极样本时。
Dec, 2018
VOS 是一种新的框架,用于通过自适应合成虚拟离群值,在训练期间能够有意义地规范模型的决策边界,包括在特征空间中从类条件分布进行虚拟离群值取样,同时引入一种新的未知感知训练目标,与 ID 数据和合成离群数据之间的不确定性空间进行反向塑形,VOS 与物体检测和图像分类模型均能实现竞争性表现,在物体检测器上将 FPR95 降低了最高达 9.36%。
Feb, 2022
本文提出一种叫做 GVS 的方法,可基于输入的语义地图,综合出多个真实感的场景视角,还可进行风格操作和图像编辑操作,如通过简单处理输入的风格图像和语义映射来添加或删除对象等。
Aug, 2020
通过合成图像和合成标题无需真实数据地学习视觉表征,SynCLR 方法在对合成图像进行对比学习的基础上,将得到的表征在多个下游任务中转移,与其他通用视觉表征学习算法相比,在图像分类任务中表现出色;此外,在诸如语义分割等密集预测任务中,SynCLR 比以往自监督方法有显著优势。
Dec, 2023
本研究提出了一种基于序列标注与双重感知机制(Local-aware Attention 和 Global-aware Convolution)的混合神经网络模型(HNN4ORT),以克服 Open relation extraction 任务中训练数据不足与特定神经结构建模的问题,并通过多种测试表明其显著的性能优势。
Jul, 2019
SynGround 是一个结合数据驱动学习和知识传递的新框架,通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力,并通过合成图像和文本来提高模型性能,最终在多个数据集上展示出提升。
Mar, 2024