- 高保真场景文本合成
本研究提出了 DreamText 方法,旨在通过增加细化的字符级指导以及多样的字体训练,提高高保真场景文本合成效果,并通过融合离散和连续变量的混合优化策略来解决该优化问题。实验结果表明,本方法在质量和数量上优于现有方法。
- TextCraftor: 您的文本编码器可以成为图像质量控制器
通过提出的 fine-tuning 方法 TextCraftor,我们可以增强 Stable Diffusion 使用的 CLIP 文本编码器,从而在定量基准和人类评估方面实现了显著改进,并且我们的技术还通过不同奖励的细调文本编码器的插值使 - CVPR生成多模态模型在类增量学习中表现优秀
我们提出了一种适用于类增量学习的新型生成多模态模型(GMM)框架,通过适应的生成模型直接生成图像的标签,利用文本编码器提取文本特征并使用特征匹配确定最相似的标签作为分类预测结果,在常规类增量学习任务和少样本类增量学习任务中,我们相比目前最先 - 康定斯基 3.0 技术报告
Kandinsky 3.0 是一种基于潜在扩散的大规模文本到图像生成模型,通过两倍更大的 U-Net 主干网、十倍更大的文本编码器和去除扩散映射等关键组件的改进,取得了与其他模型相比更高质量和真实感的图像生成效果。
- 使用文本编码强化学习增强扩散模型
通过强化学习对文本编码器进行微调,可以提高文本与图像之间的对齐效果,从而提升图像质量。
- 自适应实例正则化的开放词汇关键词检测
本研究提出了一种名为 AdaKWS 的新型关键词检测方法,通过训练一个文本编码器输出与关键词相关的归一化参数,从而用于处理听觉输入,并在多语言基准测试和低资源语言上展开全面评估,取得了显著的性能改进。
- 基于同构音频文本嵌入的灵活关键词检测
利用音频一致性文本编码器,通过转换文本到音素再到嵌入,检测任意关键词并辅以混淆关键词生成,实现具有强辨别力的音频 - 文本嵌入验证器。在实验中,该方案在 Libriphrase 难数据集上表现优于现有技术,AUC 指标从 84.21% 提升 - LPN:语言引导原型网络用于小样本分类
本文提出了一种基于语言引导的原型网络 (LPN),通过引入语言模态和计算视觉特征向量之间的相似性,从而改进了少样本分类任务。实验结果表明,该方法在基准数据集上具有与最先进方法相当的竞争力。
- ReFACT:通过编辑文本编码器更新文本到图像模型
ReFACT 是一种用于修正文本生成图像模型中的事实知识的方法,通过更新编码器中的特定层的权重来更新模型的部分参数,从而实现对相关概念的优化,同时保留不相关概念和图像生成质量。
- 文本到表格生成的序列 - 序列与集合模型
本文介绍了一种用于文本到表格生成的新模型,该模型在考虑到多行中的大多数组合不敏感的情况下,首先采用文本编码器编码输入文本,再加入了一种表头生成器来以序列生成的方式输出表头,之后再使用具有可学习的行和列嵌入的表体生成器并行生成一组表身行,实验 - 针对零样本和少样本意图分类的预训练意图感知编码器
本研究提出一种使用对比学习和伪标签的方法来预训练文本编码器,旨在提高任务导向对话系统中意图分类的性能。通过在四个意图分类数据集上进行实验,我们的预训练意图感知编码器 (PIE) 模型相比于现有最先进的预训练句子编码器,在 N 路零 / 一次 - TVTSv2:学习开箱即用的大规模时空视觉表示
本论文分析了导致视频模型性能下降的因素 —— 语言监督失真,提出了一种去除降级的预训练策略,并采用排序任务同时使用掩蔽技术进行可扩展的训练,得到了一系列新的模型。
- CVPRBERT 是否盲目?探索视觉语言预训练对视觉语言理解的影响
本研究探讨了图像与语言预训练是否可以提高模型在需要隐含视觉推理的文本任务上的性能,提出了一系列用于探测文本编码模型视觉推理能力的任务,并说明了采用多模态预训练方法可以提高文本编码器的性能。
- 语义辅助音频分类框架
本文提出了一个语义辅助的音频分类框架 SemanticAC,它通过利用标签中的语义信息,保证音频信号与标签之间的语义一致性,从而实现更好的性能。通过在 ESC-50 和 US8K 两个音频数据集上进行广泛实验,验证了该方法能够持续优于其他音 - 基于锚点的语言驱动对抗鲁棒零样本学习
本研究提出了一种新颖的基于语言驱动和锚点的对抗训练策略 LAAT,通过利用文本编码器生成锚点来提升零样本图像分类的对抗鲁棒性,实验证明 LAAT 策略达到了令人印象深刻的零样本的对抗性能,并且在大型数据集中训练的模型具有显着的零样本对抗性鲁 - AAAI通过利用辅助语音和文本数据来改善端到端语音翻译
本文提出了一种将文本编码器引入预训练端到端语音翻译系统的方法,该方法可以提高适应一种模态到另一种模态的能力,特别是在源语言文本数据丰富的情况下,使得语音翻译模型可以从无标签和有标签数据中学习,并且还提出了一种去噪文本编码器的方法。在 MuS - 十字绣文本与知识图谱编码器在远程监督关系抽取中的应用
本研究提出了一种交叉链式双编码器架构,通过交叉链式机制实现文本编码器和知识图谱编码器的完全交互,并实现动态控制信息共享和更新,实现两个编码器之间的全面交互,从而显著提高了两种不同领域的关系提取基准的实验结果。
- 使用 WavText5K 和 CLAP 训练进行音频检索
本文提出了一个新的 Web 音频文本检索框架,使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接,包括多个数据集的使用,取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2%和 16%的提高, - 利用文化偏见在文本到图像合成中的同形字攻击
通过在文本描述中插入单个非拉丁字符,我们展示了普通模型如何反映文化刻板印象和偏见。我们定性和定量分析了这种行为,并将其归因于模型的文本编码器。此外,我们提出了一种新颖的同形学习方法,通过微调文本编码器,使其能够抵抗同形符号的操纵.
- ACL利用机器和用户生成的自然语言描述提升少样本图像分类
提出一种学习自图像和描述的模型(LIDE),通过与基准模型的对比实验证明了机器自动生成的描述可以作为模型预测的解释,高质量的用户生成描述可以进一步提高模型的性能,并通过比较特征空间中的图像表示和文本表示来研究语言描述为什么能提高 few-s