- ICCV基于语义聚类的点云视频自监督学习的点对比预测
我们提出了一个统一的点云视频自监督学习框架,用于面向对象和面向场景的数据。通过在点级别进行对比学习,我们的方法能够捕捉到细粒度语义。同时,我们引入了一个新的预训练任务,通过实现超点的语义对齐来进一步提高表示能力。此外,为了解决动态点云时间维 - KMF: 知识感知的多方面表示学习用于零样本节点分类
提出了一种基于知识图谱的多维度框架(KMF),通过提取话题来增强标签语义的丰富性,并将每个节点的内容重构为话题级别的表示,提供多维和细粒度的语义相关性,通过新的几何约束来缓解节点信息聚合引起的原型漂移问题,多个公共图数据集上的实验证明了 K - 借助语言对齐将大型语言模型推广到非英语语境
通过建立语言间的语义对齐,提出通过使用非英语训练数据来增强预训练大型语言模型在非英语语言上的能力,并通过实验结果证明此方法在六种非英语语言上超过英语模型 42.50%,在汉语人文任务上超过英语模型 8.2%。同时发现,使用非英语文本作为翻译 - Make-An-Audio 2:时间增强的文本转音频生成
该论文提出了基于潜在扩散的 T2A 方法 ——Make-an-Audio 2,通过使用预训练的大型语言模型,设计了一些技术来提高语义一致性和时间一致性,并利用 LLMs 将大量音频标签数据变成音频 - 文本数据集。实验证明,该方法在客观指标 - 融合多种模态信息的统一视频物体分割时序变换器
本文提出了 MUTR,通过统一框架和两种策略,实现了同时支持文本和音频引用的视频对象分割,实现了视频内部各帧的时序交互,从而提高了语义对齐和目标对应的准确性。MUTR 在多个数据集上都达到了更好的 J&F 性能。
- 扩散模型的注意力映射控制组合式文本到图像合成
本文提出了一种基于预测的物体框的注意力掩码控制策略,以解决文本到图像合成模型在语义上的局限性,尤其是属性泄漏、实体泄漏和缺失实体,该方法通过约束查询语句中每个标记的注意区域来实现更准确的语义综合,此外,该方法简单而有效,可以轻松集成到现有的 - 不充足注释下的多域学习
本文介绍了一种名为多领域对比学习(MDCL)的新方法,以减轻不充分注释对传统 MDL 方法的影响,该方法旨在捕获来自标记和未标记数据的语义和结构信息,通过在不同领域的共享和私有空间中分别对其进行处理。实验结果表明,MDCL 相对于各种共享 - 基于变分信息瓶颈的多模态实体与关系抽取增强
文章研究了多模态命名实体识别和多模态关系提取的方法,并提出了一种基于信息瓶颈的多模态表示学习方法,该方法在三个公共基准测试上取得了最先进的性能。
- 解离领域本体
本文提出了本体领域逐步建模过程中出现的概念纠缠现象以及相应的多级概念建模策略 “概念解缠”,该策略通过引导原则在五个层次上实现了语义双射,从而实现了本体领域的概念化解缠。同时,简要阐述了为什么现有的本体领域建模方法和方法论对于本文的表述是不 - CVPR实体级文本引导图像操作
本文提出了基于文本指导的实体级别真实世界图像操纵方法 SeMani,通过语义对齐和图像操纵两个阶段,使用离散自回归生成和扩散模型连续去噪生成开发了两个版本的生成过程,对 CUB,Oxford 和 COCO 数据集进行了实验验证。
- 自监督学习中的解剖不变建模与语义对齐在三维医学图像分割中应用
本研究提出了一种新的自我监督学习框架 ——Alice,旨在针对医学图像领域中异构数据及医学结构的特殊性,明确实现解剖不变性建模和语义对齐,其中主要涵盖对比学习策略及条件解剖特征对齐模块,进一步提高了 3D 医学图像分割下的性能表现,超过之前 - EMNLP学习多模态语义对齐模型以进行故事可视化
在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题,进而生成连贯、高质量的多句故事可视化。
- COLINGMulZDG: 零样例对话生成的多语言混合框架
本文提出了一种名为 MulZDG 的多语言学习框架,它利用从英语语料库中抽取的翻译话语来构建多语言代码转换对话数据集,并通过 MulZDG 来训练一个统一的多语言对话模型,可以实现不同语言之间的隐式语义对齐,对零样本对话生成和资源丰富的语言 - ECCV混洗视频是否有益于解决时间偏置问题:一种新的时间定位训练框架
该论文提出了一种新的培训框架,通过使用混洗的视频来解决时间偏差问题,该框架引入了交叉模态匹配和时间顺序区分两个辅助任务来促进模型训练,以强化其对于长期时间上下文的理解和减轻依赖于时间偏差的影响。
- PyramidCLIP:视觉语言模型预训练的分层特征对齐
PyramidCLIP 通过分层语义对齐和数据集扩充可以提高图像与文本匹配任务中的性能,并在不同的数据集上取得了极具竞争力的结果。
- CVPRManiTrans: 基于实体级别文本引导的图像操纵,通过基于记号的语义对齐和生成
本研究提出基于 transformer 的框架 ManiTrans 来实现文本引导下的实体级别图像操作,结合语义对齐模块和语义损失,成功应用于真实世界的数据集上,与基准方法相比实现更精密和灵活的操作。
- CVPR针对检索的目标感知视频语言预训练
本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers,使用边界框和物体标签来引导训练过程,将对象表示法引入视频 - 语言架构中,从而提高了视频文本匹配任务的性能。
- 人脸反欺诈的小样本领域扩展
本文提出了一种基于风格转移的语义对齐增强框架(SASA),以解决面部反欺诈系统(FAS)中 Few-Shot Domain Expansion 的问题,其中包括少量目标域训练样本以及大量源域训练样本。该框架通过基于真实感的风格转移生成辅助样 - ACLE2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练
本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP,其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐,同时通过将目标检测和图像字幕生成任务整合到预训练中,采用统 - AAAI非任务相关知识构建的可传递广义零样本学习表示
该文提出了一种新的双对比嵌入网络(DCEN),通过语义对齐和实例区分同时学习特定任务和任务无关知识,其中实例区分监督可帮助捕捉视觉低级知识,减轻表示偏差,从而获得可传输的表示。