- 弱奖励模型转化为稳健因果事件提取系统
通过训练评估模型以近似人类评估并强调语义理解,我们成功地探索了一种通过多个数据集进行增强学习,并通过将在一个数据集上训练的评估模型转移到另一个数据集以减少对人工注释数据的依赖的方法,同时还提出了一种弱到强监督的方法,用于使用部分标注数据来训 - 在未知的动态环境中使用三维语义地图进行开放词汇的移动操作
在未知和动态环境中,建立并理解空间语义上下文的移动机器人操作任务通过零样本检测和基于视觉 - 语言模型的密集三维实体重建,利用大型语言模型进行空间区域抽象和在线规划,并通过演示在实际机器人实验中取得较高的导航和任务成功率以及基线模型相比更好 - UniPSDA: 无监督伪语义数据增强在零样本跨语言自然语言理解中的应用
通过无监督的伪语义数据增强机制,提出了一种跨语言自然语言理解方法,细化了语义数据,同时进行多语言知识注入和消除偏倚技术优化,从而有效改善了零对齐跨语言自然语言理解任务的性能。
- 这是一个糟糕的表格吗?从文本生成表格的评估再探讨
通过 TabEval 方法,通过将表格转化为自然语言原子语句并使用蕴含度量对比真实语句,我们提出了一种新的表格评估策略,以捕捉表格的语义信息,并与现有方法进行比较,展示了其在人工判断表格质量方面具有更强的相关性。
- CVPRGear-NeRF:自由视点渲染和动态感知时空采样
Gear-NeRF 使用语义信息和动态对象追踪技术解决了 NeRF 模型在计算资源受限和场景语义理解方面的局限性,实现了逼真的动态场景渲染和新视角追踪。
- 利用以自我的视角的视频和自动化注释策略学习语义可行性
通过使用依身视觉视频和自动标注过程来训练语义可通行性估计器的有效方法,在多个国家和城市拍摄的视频进行的广泛实验表明,所提议的注释方法具有高可扩展性和普适性,而经过训练的语义可通行性估计器具有高准确性,能处理多样的摄像机观点,计算量小且适用于 - SemCoder:使用全面语义训练代码语言模型
该论文提出了一种新的策略,通过连接静态代码文本和动态执行状态,训练具有全面语义的 Code LLMs,从而填补 Code LLMs 在诸如调试和程序修复等复杂任务中对深层语义的依赖的差距。该方法通过收集 PyX,一个具有可执行样本、功能描述 - DocReLM: 用语言模型掌握文档检索
通过使用大型语言模型,我们展示了文献检索系统能够达到先进的语义理解能力,显著优于现有系统;我们的方法包括使用大型语言模型生成的领域特定数据来训练检索器和再排名器,此外,我们还利用大型语言模型从检索到的论文参考文献中识别候选项以进一步提高性能 - 推进 DINO 1.5: 开拓开放集合目标检测的 “边缘
Grounding DINO 1.5 是一套由 IDEA Research 开发的先进的开放集合目标检测模型,旨在推进开放集合目标检测的边缘发展。
- 抑制显著性,凸显语义:神经网络和大脑中的视觉转换
深度学习算法在将原始视觉输入转化为强大的语义理解方面缺乏人类可解释的说明,阻碍了不同架构、训练目标和人类大脑之间的比较。本文从神经科学中汲取灵感,采用表征方法揭示神经网络在低层次(视觉显著性)和高层次(语义相似性)抽象水平上如何编码信息。此 - VISLA Benchmark: 评估嵌入对语义和词汇变化的敏感性
通过引入 VISLA 基准测试,评估语言模型的语义和词汇理解能力,本论文揭示了现有最先进语言模型在理解语义细节方面的挑战,通过三句与图像相关的语义(不)等价任务,对视觉 - 语言模型和单模态语言模型进行评估,结果显示了在区分词汇和语义变化方 - CLIP-GS:基于 CLIP 的高斯点云着色在实时和视图一致的三维语义理解中的应用
CLIP-GS integrates semantics from Contrastive Language-Image Pre-Training (CLIP) into Gaussian Splatting, utilizing Sema - 关于对文本驱动强化学习应用微调语言模型效果的研究
本文研究了基于文本的强化学习,讨论了语义理解和语言能力对强化学习代理的训练效率以及在类似语义训练游戏中的表现的影响,旨在为文本强化学习情景下的代理微调开发更好的策略。
- QueSTMaps:可查询的二维场景语义拓扑地图
通过楼层平面图提取,我们引入了一个两步流程,首先使用一种新颖的多通道占用表示提取室内场景的拓扑图,然后使用自注意力转换器基于对象生成每个房间实例的 CLIP 对齐特征和语义标签。我们在房间分割和分类上的表现超过了当前最先进技术,我们的定性分 - 零样本实例导航的优先语义学习
我们提出了一种优先语义学习(PSL)方法,通过引入语义增强的 PSL 代理和优先语义训练策略来提高导航代理的语义理解能力,并设计了语义扩展推理方案以保持与训练相同的目标语义粒度级别。此外,针对流行的 HM3D 环境,我们提出了一个实例导航( - 神经符号化视频搜索
使用视觉语言模型进行语义理解,通过状态机和时间逻辑进行长期演变的事件推理,提高了复杂事件识别的 F1 得分。
- 在室内环境中进行高层语义区域划分而无需物体识别
通过室内环境中的具身导航,提出了一种语义区域绘图的方法,通过视觉 - 语言模型向导绘图,将自身场景理解映射到全局框架上,生成具有高级代理知识的语义地图,实现自主地图生成。在逼真模拟器的实验中,该方法在大量基线方法中明显优于基于对象的系统和预 - FontCLIP: 一个用于多语言字体应用的语义排版视觉语言模型
FontCLIP 是一种模型,通过一种新的微调方法,将片段和大视觉语言模型的识字理解能力相结合,从而将专业设计任务中获取期望字体的困难降至最低。它可以进行多语言和跨语言的字体检索和字形优化,减轻了获取所需字体的负担。
- 超越 MOT:语义多对象跟踪
引入了 Semantic Multi-Object Tracking (SMOT) 的研究,旨在估计物体的轨迹并理解与轨迹相关的语义细节,包括实例描述、实例交互和整体视频描述,整合了 “where” 和 “what” 以进行跟踪。同时介绍了 - 您的模型能否区分否定与暗示?揭示意图编码的挑战
通过使用三个任务(意图分类、意图聚类和新颖的三元组任务)来评估意图嵌入模型在语义理解方面的能力,研究使用预训练方法和数据增强来改善意图嵌入模型在实际对话系统中的性能。