- LaSe-E2V:面向语言引导的语义感知事件到视频重建
使用语言导向的途径,结合条件扩散模型,提出一种名为 LaSe-E2V 的新框架,实现语义感知的高质量事件到视频重构;通过事件引导的时空关注模块、事件感知的掩膜损失和噪声初始化战略,确保重构的时空一致性和空间连贯性。在三个数据集上进行的广泛实 - 利用丰富上下文条件扩散模型提升故事可视化一致性
提出了一种新颖的富上下文条件扩散模型 (RCDMs),旨在增强故事生成的语义一致性和时间一致性,通过在第一阶段使用先验帧转换扩散模型来预测未知片段的帧语义嵌入,通过在第二阶段将富上下文条件注入图像和特征级别来生成一致的故事。
- MCAD:多模态条件对抗扩散模型用于高质量 PET 图像重建
提出一种新的多模态条件对抗扩散模型(MCAD),从多模态输入(包括低剂量正电子发射计算机断层摄影图像和临床表格)中重建标准剂量正电子发射计算机断层摄影图像,通过多模态条件编码器(Mc-Encoder)、有噪声与多模态特征融合的条件扩散过程以 - 使用 GPT-4 的二维零样本对话状态跟踪评估方法
我们提出了一种使用 GPT-4 的二维零样本评价方法,将对话状态跟踪 (DST) 评价分为准确性和完整性两个维度,并设计了两条手动推理路径来进一步提高评价准确性,实验结果表明我们的方法比基线方法取得了更好的性能,并且与传统的精确匹配方法一致 - StyleMaster:面向灵活样式化图像生成的扩散模型
Stylized Text-to-Image Generation paper proposes StyleMaster, a framework utilizing pretrained Stable Diffusion for gene - OpFlowTalker:通过光流引导实现逼真自然的说话人脸生成
通过应用光流来指导面部图像生成,增强帧与帧之间的连续性和语义一致性,这篇论文提出了一种名为 “OpFlowTalker” 的新方法,利用音频输入预测的光流变化而非直接预测图像,平滑图像的过渡并使其与语义内容相吻合,通过序列融合技术替代单帧的 - CVPR构建通用 3D 大规模感知强预训练基准
通过构建一个 CSC 框架,我们综合使用视觉基础模型提供的语义线索和多模态信息的知识丰富的跨场景原型,实现了一种具有各种下游任务的更少微调工作量的通用 3D 预训练模型。
- TheaterGen: 使用 LLM 进行一致多轮场景角色管理的图像生成
TheaterGen 是一个无需训练的框架,通过将大型语言模型(LLMs)和文本到图像(T2I)模型集成,实现了多回合图像生成。该框架通过 LLMs 生成和管理一个标准化的提示书,从而提高合成图像的语义一致性和上下文一致性。通过将提示书和指 - CVPR扩散模型图像生成的一种量化一致性的语义方法
通过使用对比式语言 - 图像预训练(CLIP)得出的平均语义一致性分数,本研究提出了一种解释性、定量的图像生成一致性评分,用于评估扩散模型的图像生成一致性,并发现了两种优秀的开源图像生成扩散模型 Stable Diffusion XL 和 - SSCAE -- 语义、句法和上下文感知的自然语言对抗样本生成器
提出了一种名为 SSCAE 的自然语言生成器模型,它是一种实用且高效的对抗性攻击模型,能够生成具有语义、句法和上下文感知的自然语言对抗性示例,通过比较实验和参数优化敏感性分析验证了该模型的有效性和优越性。
- 学习层次化的颜色指导用于深度图超分辨率
本文提出了一种 Hierarchical Color Guidance 网络,通过在低级阶段以残差掩模方式补充深度特征的高频彩色信息,以及使用编码全局指导信息的语义掩模来实现语义一致性重建,从而实现 DSR。与现有方法相比,在四个基准数据集 - 语义特征引导下的深度对比多视图聚类
通过对视图重要性进行融合,并通过聚类级对比学习和语义特征度量来减弱假阴性对之间的对比学习,我们提出了一个名为 DCMCS 的多视图聚类框架,用于减轻假阴性对的影响。实验结果表明,该框架优于现有方法。
- AAAI弱监督语义分割的渐进不确定特征自强化
对比传统的像素级监督语义分割,使用图像级标签的弱监督语义分割(WSSS)面临的挑战是始终专注于最具差异性的区域,导致完全监督条件下的不一致。典型的表现是在目标边界上减少了精度,从而导致 WSSS 的准确性下降。为了缓解这个问题,我们提出了一 - 遥感图像字幕生成中的交互式图像 - 文本对齐引导
基于视觉语言预训练的新型交互式傅里叶变换方法,用于实现远程感知图像字幕生成,通过对遥感图像和文本特征的更好对齐,提高了语义一致性,并在多个数据集上表现出超过其他方法的优越性能。
- 非交叉扩散的语义一致性
该研究纸介绍了一种创新的生成建模方法 —— 非交叉扩散,用于学习常微分方程模型。该方法通过引入升维输入的策略,有效地将两个分布采样点连接起来,以确保增强语义一致性。实证结果表明,非交叉扩散方法能够显著减少语义不一致,提升扩散模型的整体性能。
- EMNLP通过语义一致性预测大型语言模型的问答性能
我们通过手动创建一个高质量的事实问答近义词语料库,并与先前工作中的其他相关度量标准相结合,以评估现代大型语言模型(LLMs)的语义一致性,以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个 - ACL基于大型语言模型的自然语言生成从逻辑形式的重新排序研究
通过提出一种新颖的生成和重新排序的方法,本研究强调大型语言模型在自然语言生成中的出色能力,并解决了从逻辑形式(LFs)生成自然语言时遇到的一些问题,该方法能够提高生成输出的语义一致性和流畅性,经过多项实验验证了其有效性。
- 探索非配对图像翻译中的语义一致性,以生成外科应用数据
探索了无配对图像翻译技术在手术应用中生成具有语义一致性数据的可行性,并发现结构相似性损失和对比学习的简单组合方法取得了最有希望的结果。定量分析表明,使用这种方法生成的数据具有更高的语义一致性,可以更有效地用作训练数据。
- SAAN:基于相似性感知的高分遥感图像变化检测的注意力流网络
设计了一种新颖的相似性感知注意力流网络(SAAN),通过深度监督相似性优化来明确引导深度编码器层从双时相输入图像中发现语义关系;同时,引入相似性引导的注意力流模块和注意力流机制来引导模型关注具有区分性的通道和区域,达到高效的变化检测和语义一 - 物体检测的语义信息
我们展示了在复杂交通场景中将语义一致性的概念和知识感知的重新优化方法应用于目标检测问题。此外,我们介绍了一种从具有实例级注释的图像数据集中提取知识图谱的新方法,并将该知识图谱与现有的语义一致性模型集成。将这种新型混合知识图谱和频率分析和外部