- ImageFlowNet: 不规则采样的长期医学图像预测多尺度疾病进展轨迹
通过使用神经 ODE 和 SDE 模拟疾病进展的图像流场,ImageFlowNet 框架能够学习多尺度联合表示空间,并通过结合患者群体来传递信息,从而在长期医学图像数据集中准确预测疾病进展。
- 声音之图像:将图像和声音合成于单一画布上
通过使用预训练的文本到图像和文本到频谱扩散模型,在共享潜在空间中,简单地合成具有视觉外观和声音的自然图像样本。
- 基于分类的自适应分割流水线:多囊肝和结直肠癌 CT 图像转移的可行性研究
通过使用深度学习分类器将图像自动分类并将其路由到适当的分割模型,本研究旨在探索构建一个工作流的可行性,以高效地处理不同病理图像。我们希望通过我们的工作流能够准确地分割具有不同病理学的图像。我们的自适应分割工作流在总肝脏分割任务上与通用单一分 - 通过激光雷达 - 相机协同实现一致性目标检测
该研究论文介绍了一种端到端的一致性目标检测算法框架,能够同时获取点云和图像中物体的位置并建立它们之间的关联,通过新的一致性精度评估指标验证了该框架的准确性,实验结果表明该方法具有优秀的检测性能和鲁棒性。
- TableVQA-Bench: 多表领域上的视觉问答基准
本文介绍了一个名为 TableVQA-Bench 的基准,用于表格视觉问答,该基准由现有的表格问答和表格结构识别数据集派生而来。通过使用样式表或提出的表格渲染系统,获取图像,并通过利用大型语言模型生成 QA 问题。我们在 TableVQA- - LM-IGTD:用于二维图像生成的低维和混合类型表格数据,以发挥卷积神经网络的潜力
该研究提出了一种将表格数据转化为图像的新方法,名为 LM-IGTD,通过整合随机特征生成过程和 IGTD 的修改版本,实现了从表格数据中创建图像的自动化和可解释的端到端流程,并在 12 个低维和混合类型数据集上进行了广泛的评估,通过 LM- - 纹理的盲定位和异常聚类
我们提出了一种新的方法来在纹理图像中盲目聚类异常,通过高精度地识别异常区域并使用对比学习增加不同异常类型的可分离性和降低类内变异,我们的实验表明所提出的解决方案相比以往工作有了显著的改进,树立了新的技术水平。
- CVPR学习视觉 Transformer 的相关结构
我们引入了一种新的注意力机制,称为结构自注意力(StructSA),它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块,我们开发了结构视觉转换器(StructViT),并在图像和视频分类任务上评估其有效 - DerainNeRF:粘滞水滴去除的三维场景估计
使用水滴去除方法,通过利用多视角图像来预测水滴的位置并训练神经放射场恢复清晰的三维场景,实验结果显示我们的方法在去除水滴的同时生成了清晰的三维场景,优于现有的水滴去除方法。
- 神经相加图片模型:插值解释
通过综合建模方法,结合神经添加模型和扩散自编码器,我们能够有效识别图像效果的潜在隐藏语义并完全理解表格效果的影响。我们的方法具有高度灵活性,使我们能够全面探索各种图像特征的影响。通过消融实验,我们展示了该方法能够准确识别复杂的图像效果。为了 - 多模式检索增强生成式常识推理
提出了一种新颖的多模式检索 (MORE) 增强框架,利用文本和图像来增强语言模型的常识能力。在 Common-Gen 任务上的大量实验表明,MORE 基于单一和多模态的预训练模型具有较高的效果。
- CMNER: 基于社交媒体的中文多模态命名实体识别数据集
通过从中国最大的社交媒体平台微博获取数据,我们编制了一个包含 5000 个微博帖子和 18326 个对应图片的中文多模态命名实体识别数据集(CMNER)。我们在 CMNER 上进行了基准实验,结果表明将图像与 NER 相结合的有效性。此外, - 图像高密度瞬时对齐通过相机位姿和深度估计
本文介绍了一种新颖的方法来对手持相机拍摄的图像进行细微对齐。与传统的技术不同,该算法通过优化每个像素的摄像机运动、表面深度和方向来建立密集对应关系。这种方法改善了在具有视差挑战的情况下的对齐效果。通过对具有小型或短小基线的合成连拍进行广泛实 - AutoStory: 以最小化人力投入生成多样化的故事图像
自动化故事可视化系统通过大规模语言模型的理解和规划能力进行布局规划,然后利用大规模文本到图像模型生成基于布局的复杂故事图像,通过密集条件生成模块将简单边界框布局转换为草图或关键点控制条件增加生成图像质量和简便的用户交互,同时提出了一种简单而 - 推进事后基于案例的解释与特征突出
提出了两种通用算法(潜在和超像素基础),可以从测试图像中分离出多个清晰的特征部分,并将其与训练数据中的解释性案例联系起来,通过精心设计的用户研究验证了其有效性,结果表明所提出的方法可以适当调整用户对 ImageNet 数据集中模糊分类的正确 - 图像隐私分类的人类可解释性和深度特征
隐私是一个复杂、主观和语境相关的概念,对其进行定义十分困难。因此,对图像进行注释以训练隐私分类器是一项具有挑战性的任务。在本文中,我们分析了隐私分类数据集及以不同评估员对具有对立隐私标签的具有争议性图像的注释属性。我们讨论了适用于图像隐私分 - EMNLPTILFA: 论证挖掘中文本、图像和布局融合的统一框架
Argument Mining 中通过 TILFA 框架,结合文本、图像及布局融合进行分析,优于现有方法,赢得了 Argumentative Stance Classification 子任务中的第一名。
- 生成 AI 可能更愿意基于大陆级别的刻板地理印象呈现城市的国家级特征
中国基于生成式人工智能平台文心颐格的实验表明,该平台生成的城市街景图像在经济发展水平和现代化方面可能存在大陆级别的刻板印象,不能充分代表不同国家间多样化的城市风景。将这些生成的图像用于地理教育或宣传活动可能无意中加强人们对个别国家的刻板观点 - AstroCLIP:天体基础模型的跨模态预训练
AstroCLIP 是一种构建天文基础模型的策略,它通过图像和光学星系光谱之间的跨模态对比学习方法实现了高度信息密集的嵌入表达,从而实现了准确的跨模态搜索和有竞争力的零式和少样本预测。
- ICCV从野外声音生成逼真图像
通过音频字幕、音频注意力和扩散模型,本文提出了一种从野外音频生成高质量图像的新方法,并在野外音频数据集的定量和定性评估中优于基线模型。