- 您的模型能否区分否定与暗示?揭示意图编码的挑战
通过使用三个任务(意图分类、意图聚类和新颖的三元组任务)来评估意图嵌入模型在语义理解方面的能力,研究使用预训练方法和数据增强来改善意图嵌入模型在实际对话系统中的性能。
- UFO: 地形语义图的不确定性感知激光雷达 - 图像融合
通过执行多尺度的激光雷达 - 图像融合,结合使用不确定性感知的伪标签,提高 RGB 图像和单次激光雷达扫描产生的语义地形图的准确性,进而在具有挑战性的越野环境中实现可靠和安全的自主导航。
- CVPR姿势引导的人体图像合成的粗细潜扩散
提出了一种新的粗粒度到细粒度潜在扩散方法,用于姿势引导的人物图像合成,并在 DeepFashion 基准上展示了其优越性。
- EntailE: 建立在常识知识图谱完备性基础上的文本蕴含
本文提出了一种采用文本蕴含来找到共享常识知识图谱节点之间的隐式蕴含关系的方法,以有效地增加相同概念类中节点之间连接的子图密度,从而提高 CSKG 完成任务的性能。
- SGS-SLAM:面向神经稠密 SLAM 的语义高斯投影
SGS-SLAM 是第一个基于三维高斯模型的语义密集视觉 SLAM 系统,它在实时渲染的同时提供精确的三维语义分割和高保真度的重建结果。
- 通过利用音频场景语义实现自动图像着色
通过利用音频的额外语义信息,本文提出了一种新颖的自动图像上色网络(AIAIC),它由三个阶段组成,通过颜色图像语义作为桥梁的预训练、学习音频和视觉场景之间的颜色语义相关性以及利用隐式音频语义表示实现音频引导的上色,实验表明音频引导能够有效改 - FiGCLIP: 细粒度 CLIP 适应通过密集标注视频
通过基于 VidSitu 数据集的细节导向字幕和层级损失,我们改进了 contrastive language image pretraining (CLIP) 模型,提高了其对细粒度和句法的理解能力,并在不同任务中取得了稳定的改进。
- 分割和标注任何东西
提出了一种方法,能够高效地为 Segment Anything Model (SAM) 添加生成区域描述的功能,并且通过引入轻量级的基于查询的特征混合器使区域特征与语言模型的嵌入空间对齐,以便进行后续的描述生成。该方法具有小的可训练参数数量 - 跨图像注意力的零样本外观转换
利用文本到图像生成模型中的语义知识,在具有相似语义但形状可能差异大的物体之间进行视觉外观转换,通过建立跨图像的注意力机制和利用噪声编码或模型内部表示来提高输出图像质量,实现了零训练的目标。
- EMNLPDPR 主题:用于密集段落检索的基于主题的提示
Topic-DPR 是一种基于主题的密集段落检索模型,通过对多个基于主题的提示进行优化和对比学习,使表示与其主题分布对齐,提高空间均匀性,并引入了一种新的正负采样策略来提高检索效率。实验证明,该方法超过了之前最先进的检索技术。
- 评估大型语言模型的元语义模板
大型语言模型的数据污染引发了关于其语义理解能力的担忧,本文提出了 MSTemp 方法,通过创建元语义模板对 LLMs 进行评估,不直接对现有基准数据集进行评估,而是使用现有数据集作为种子生成新的超出分布的评估集,实验结果表明 MSTemp - 通过本地和云计算增强环境的图表示
通过图形化表示机器人环境,结合经典计算机视觉工具和现代计算机视觉云服务,以达到语义理解的目标。
- LKPNR: 个性化新闻推荐框架的 LLM 和 KG
通过将大型语言模型(LLM)和知识图谱(KG)结合为传统方法的语义表示形式,该研究提出了一个新的通用框架,以准确地推荐候选新闻文章给用户,从而改善了新闻推荐系统中的个性化推荐效果。
- R2S100K:用于半监督自主驾驶的道路区域分割数据集
通过引入道路区域分割数据集(R2S100K),本研究提出了一种以结构不良的道路为特点的大规模数据集和评估基准来训练和评估道路分割,以提高自主驾驶的安全性和普适性。通过使用半监督学习方法,可以利用这些未标记的图像数据,结合快速高效的数据采样( - ICCV深度统一的面向深度感知全景分割与双向引导学习
深度感知全景分割是计算机视觉中的新兴话题,结合了语义和几何理解,以实现更稳健的场景解释。我们提出了一种深度统一框架,用于深度感知全景分割,通过相同的对象查询以分段方式执行联合分割和深度估计。为了缩小两个任务之间的差距,我们进一步设计了一种几 - Android 在野外:用于 Android 设备控制的大规模数据集
用于设备控制研究的数据集 Android in the Wild (AITW) 包含有关设备交互的人类演示、自然语言指令以及需求语义理解的多步骤任务,涵盖多个 Android 版本和设备类型,挑战用户界面操作推断和设备控制系统的鲁棒性分析。
- IntelliGraphs: 用于知识图谱生成基准测试的数据集
该论文介绍了一种名为 Subgraph Inference 的任务,并提出了一个包含逻辑规则的知识图子图的数据集 IntelliGraphs,并设计和评估了不同的基准模型,旨在鼓励发展注重语义理解的机器学习模型。
- HOKEM: 人体与物体关键点扩展模型的人 - 物交互检测
本文提出了一种基于人体和物体关键点的扩展模块(HOKEM)和一个自适应的图最优化和注意机制的人体 - 物体自适应图卷积网络(HO-AGCN),用于提高语义理解图像中人和物体之间的交互检测精度。实验结果表明,HOKEM 显著提高了外观模型的准 - ACL利用(模糊测试)测试用例理解程序
通过模糊测试来提高程序理解和代码表示学习的性能,并将此关系纳入学习中,以实现程序的深层语义理解。该方法在代码克隆检测和代码分类等两个程序理解任务上表现出色
- 大型语言模型的良好视觉分词器的特点是什么?
通过实证研究,我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器,以使大型语言模型(LLM)成为强大的多模态大语言模型(MLLM)。我们发现,GVT 在不引入额外的参数和任务特定的微调的情况下,展现出了在多个尺度上的强大视觉