- MASA: 带有语义对齐的运动感知遮挡自编码器用于手语识别
提出了一种结合丰富的动作线索和全局语义信息的运动感知遮蔽自编码器(MASA)框架,通过自我监督学习范式实现对手语的全面表示,实现了在四个公共基准测试上的最先进性能。
- 超越融合:一种用于遥感图像 - 文本检索的多尺度对齐方法
遥感图像文本检索领域的研究论文,介绍了一种新的多尺度对齐方法,使用多尺度图像特征和本地化文本特征进行交叉对齐,并引入语义对齐损失与跨尺度多模态语义一致性损失,通过在多个数据集上的评估证明了其优越性。
- C3LLM: 使用大型语言模型的条件多模式内容生成
我们介绍了 C3LLM(Conditioned-on-Three-Modalities Large Language Models),它是一个新颖的框架,将视频到音频、音频到文本和文本到音频三个任务结合在一起。C3LLM 以大型语言模型(L - 全局 - 局部语义一致学习的文本 - 视频检索
通过提出 Global-Local 语义一致性学习方法,该研究利用文本 - 视频预训练模型,实现在文本 - 视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐,并引入一致性损失和多样性损失,达到概念对齐和生成更 - LGTM: 本地到全局的文本驱动人体运动扩散模型
本研究介绍了 LGTM,一种面向文本到动作生成的新颖的本地到全局流程。LGTM 利用扩散式架构,旨在解决将文本描述准确转化为在计算机动画中语义一致的人体动作的挑战。我们通过引入两阶段的流程来克服语义差异的问题,首先使用大型语言模型将全局动作 - CVPR 2024 NICE 挑战赛技术报告:使用集成 CLIP 和共识得分进行字幕重新排名评估
DSBA LAB 团队提出了一种名为 ECO(Ensembled Clip score and cOnsensus score)的新框架用于评估和排名给定图像的字幕,通过将考虑图像和字幕的语义对齐的 Ensembled Clip 得分与考虑 - 利用图生成提升领域自适应物体检测
通过图生成提高无监督域适应中的目标检测质量,并在语义对齐和适应领域之间保持类别不变的信息以实现最准确的跨域语义对齐。
- OPTiML: 自我监督医学图像表示中的稠密语义不变性应用最优传输
我们介绍了一种新的自我监督学习框架 OPTiML,采用最优输运(OT)来捕捉密集的语义不变性和细节,从而提高医学图像表示学习的总体效果,并且在胸部 X 射线模态上的实验结果表明 OPTiML 在所有评估任务中优于最先进的方法。
- CVPR弱监督参照图像分割的课程点提示
通过引用图像分割技术(RIS),本文提出了一种创新框架 Point PrompTing(PPT),并结合了多源课程学习策略来解决以往弱监督技术中面临的噪声和过度关注问题,实验证明 PPT 在 RefCOCO、RefCOCO + 和 G-Re - 无噪声标签的交叉模态检索的统一最优传输框架
基于最优传输的鲁棒跨模态检索框架(UOT-RCL)通过语义对齐和关系对齐两个组件,有效处理嘈杂标签并提高对噪声的鲁棒性,在三个广泛使用的跨模态检索数据集上超过了当前最先进方法。
- 探索预训练的文本到视频传播模型用于视频对象分割
探索了基于预训练的文本到视频 (T2V) 扩散模型产生的视觉表示,在视频理解任务中的应用,通过验证经典的参考视频对象分割 (R-VOS) 任务的假设,介绍了一个名为 “VD-IT” 的新框架,结合了预训练的 T2V 模型,利用文本信息作为条 - 走向全面多模感知:引入触觉 - 语言 - 视觉数据集
通过人机级联协作构建了一个名为 TLV(触觉 - 语言 - 视觉)的触觉 - 语言 - 视觉数据集,其中包含用于多模态对齐的句级描述。利用该新数据集,使用我们提出的轻量级训练框架 TLV-Link(通过对齐链接触觉、语言和视觉)进行微小参数 - 逆转 CLIP 模型带给我们什么启示?
我们使用反演方法研究了 CLIP 模型,发现其反演结果生成的图像与指定的目标提示存在语义对齐。我们利用这些反演图像深入了解了 CLIP 模型的各个方面,如其概念融合能力和性别偏见的包含。我们特别观察到模型反演过程中出现了不安全的图像,即使对 - ICLR跨模态语境扩散模型的文本导向视觉生成与编辑
我们提出了一种新颖而通用的上下文扩散模型 (ContextDiff),通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中,将上下文传播到这两个过程的所有时间步,从而促进跨模态条件建模,在文本到图像生成和文本到视频编辑的两个挑战性任 - 培养多轮思维的文本引导图像生成
本研究针对文本引导的图像生成任务,通过引入多轮规则化方法解决了单次优化忽略细节的问题,特别是在细微变化方面。我们的方法在文本引导的生成任务中展现了高保真度的生成质量,并在与文本的语义匹配方面得到了竞争性的表现。
- 精细的外观转换模型
提出了一个创新性框架,通过集成语义匹配、外观转换和潜在偏差的各个方面,来达到细粒度细节的精确和自然转换,其中关键的要素是扩散模型在扩散过程的潜在空间内对预测的 x0 范围的战略使用,用于实现源图像和目标图像的语义对齐,便于改善特征获取的逐掩 - 一图胜千言:原则性重描述提升图像生成
通过重新标注语料库并以此为基础训练文本到图像模型,可以显著提高模型的图像质量和语义对齐,并减少训练与推理之间的差异,增加样例效率,使模型更好地理解标题和图像之间的关系。
- 扩展多模态对比表示
本文介绍了一种用于多模态学习的训练高效且无需成对数据的方法,名为 Ex-MCR。通过整合现有多模态对比表示空间的知识,Ex-MCR 将多个现有对比表示空间对齐到基于对比表示空间,有效保留了基于对比表示空间的原始语义对齐。通过从训练数据、架构 - 通过翻译跟随示范提升面向指导训练大型语言模型的跨语言能力
通过在语言模型中建立语义对齐,该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型(It-LLMs)的方法,通过交叉语言指导和翻译指导演示,提高语义对齐,并在六种不同语言上的多语言问答基准测试中验证其方法的效果。
- ICCV基于语义聚类的点云视频自监督学习的点对比预测
我们提出了一个统一的点云视频自监督学习框架,用于面向对象和面向场景的数据。通过在点级别进行对比学习,我们的方法能够捕捉到细粒度语义。同时,我们引入了一个新的预训练任务,通过实现超点的语义对齐来进一步提高表示能力。此外,为了解决动态点云时间维