- OneActor:通过群集条件引导实现一致的角色生成
針對文本到圖像擴散模型中的一致性生成的挑戰,提出了一種輕量級但複雜的引導方法,通過引入後驗樣本來引導去噪軌跡向目標集群集中,並設計輔助組件來同時增強調整過程和規範推理,以提高生成圖像的內容多樣性。綜合實驗結果顯示,該方法在角色一致性、提示一 - S^2IP-LLM: 基于语义空间的 Prompt 学习与 LLM 方法的时间序列预测
利用预训练的大型语言模型(LLM)的语义空间,通过学习从共同空间获得的提示信息,在时间序列嵌入空间中执行时间序列预测,展示了优于现有基准的预测性能,并验证了受语义空间提供的提示学习的必要性。
- OST: 优化时空描述符提升通用视频识别中的文本知识
通过将大型语言模型应用于视频领域,进行语义空间的优化,从而改善图像 - 语言模型在视频数据上的性能限制,并提高视频识别的准确性。
- 利用视觉语言驱动的图像增强提高公平性
本文提出了一种方法,通过学习语义空间中可解释和有意义的路径来减轻深度学习区分模型中的相关性,以提高公平性。通过编辑受保护特征(如年龄和肤色),将这些路径应用于增强图像,从而改善给定数据集的公平性。
- 常识零样本动作识别故事讲述
通过引入包含丰富文本描述的 Stories 数据集,我们提出了一种新的方法来处理视频理解中的零样本学习问题,该方法可以在多个基准测试中取得新的最佳效果,提高了顶级准确率。
- 叙事的动力学原理
1800 个短篇故事的开头部分按照行动原则排序,而打乱段落顺序后,平均故事不再具有该属性。研究结果表明,在开始讲故事时,我们在语义空间中采取了一种优先方向,可能与亚里士多德在诗学中提到的西方传统故事讲述有关。
- CVPR通用零样本分割的原始生成和语义相关对齐
本文研究了通用的零样本分割,该方法能够通过将语义空间中的跨类关系应用于视觉特征学习,从而实现新类别的全景、实例和语义分割。我们提出了一种生成模型,在无可见训练数据的情况下,为看不见的类别合成特征,进而实现了在零样本下的全景、实例和语义分割, - 无需词汇的图像分类
该论文提出了一种名为 “无词汇图像分类(VIC)” 的新任务,通过使用外部视觉语言数据库(即语义空间)来解决这个任务,为此提出了一个名为 CaSED 的方法,它利用预训练的视觉语言模型和外部视觉语言数据库在训练自由的情况下来完成任务,与其他 - 基于跨语言词向量的多语言新闻聚类研究
本文提出一种用于分类跨语言新闻的 incorporating clustering 模型,该模型使用跨语言向量表示新闻,使用 LDA 主题模型表示新闻内容,采用 Single-Pass 聚类算法进行优化,并利用知识蒸馏技术,将两个语义空间拟 - 使用空类别检测新颖性
该研究通过异常检测机制识别未知数据,并在其中学习新类别,通过增加空类来扩充深度神经网络模型的语义空间,实现无监督学习。在图像分类和语义分割任务中进行的实验验证了该方法的有效性。
- 从孤立的岛屿到泛地球:人类行为理解的语义空间统一
本文提出了一个基于 Poincare 动作语义空间的方法,将不相容的行动数据集转换为统一的数据库,并设计了一个双向映射模型,在实验中得到了显著更好的效果,特别是在迁移学习方面表现出卓越性。
- 稻草堆中的话题:超越一致性的话题提取和评估
该研究提出了一种方法,通过对句子和文档的主题进行深入理解,不仅分析数据中的词频,而且可以检测包括非常见词或新词在内的潜在主题,还使用了基于语义空间的异类词和相似性度量等新的评价指标,并通过与人工识别相似性度量的相关系数,在文本挖掘方面展现出 - 在 Pinterest 上使用发现的动态 μ- 主题快速且低成本地生成可用的分类法
通过底层发现称为 Pincepts 的 μ 主题,将这些 μ 主题动态地与相关查询、引脚和用户高精度地连接起来,自动适应不断变化的兴趣,形成符号层,此方法已成功应用于快速迭代和启动基于样式的个性化 Home decor 和时尚风格分类,并在 - 一种可解释的神经元嵌入用于静态知识蒸馏
通过将神经元嵌入语义空间来提取它们内在的全局语义,提出了一种新的可解释神经网络方法。神经元的激活相似性和语义向量相似性被不断对齐来优化语义向量,可视化语义向量可以定性地解释神经网络的工作机制,并经过了定量的知识蒸馏任务的实验验证,表明提出的 - 协同主题建模
我们提出了一种名为 “协调主题建模” 的新问题,旨在通过复用现有知识来更加可解释地表示语料库,并设计了一种基于嵌入式的协调主题模型(ECTM),该模型通过引入主题和文档级别的监督和自训练机制来解决此问题,并在多个领域进行的广泛实验表明我们的 - 卷积神经网络的语义解释:什么使得一只猫成为猫?
本文提出了语义可解释人工智能(S-XAI)框架,利用基因算法发现的最佳超像素的共同特征和可视化技术提取了理解的语义空间,同时提供了语义空间的统计解释和语义概率的概念。实验结果表明,S-XAI 在为 CNN 提供更好的语义解释方面是有效的,具 - ACL一句话价值 128 伪标记:一个针对句子嵌入的语义感知对比学习框架
本文提出一种基于伪符号 Bert(PT-Bert)的语义感知对比学习框架,可以有效地利用句子的伪符号空间表示,消除了句子长度和语法等表征对模型的影响,实现了对未标注文本的编码。通过构建同长度的正负样本对进行对比学习,我们的模型在六个标准语义 - 邻域增强对比学习优化图协同过滤
本文提出一种名为邻域增强对比学习(Neighborhood-enriched Contrastive Learning,简称 NCL)的方法,将邻居嵌入到对比对中,以实现在图协同过滤方法中减少数据稀疏性的效果,并在五个公共数据集上进行广泛的 - AAAI利用视频作为条件图层级的多粒度问答
本文提出了一种将视频建模为条件分层图层次结构的方法,通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念,该方法超越了先前方法的表现,且对于不同类型的问题也具有更好的泛化能力。
- AAAI利用关系知识蒸馏提升对比学习
通过引入异构的 teacher 和 relation-wise 对比学习,我们成功地解决了在轻量级模型中进行 instance-wise 对比时在语义空间中容易崩溃的问题,并通过 AlexNet 线性评估验证了该方法的有效性,达到了接近于有