- 逐步思考:机器人手术视频中错误检测的连续手势提示
本论文提出了一种新颖的实时端到端错误检测框架,称为 Chain-of-Thought (COG) prompting,利用手术视频中的上下文信息来提高机器人辅助微创手术的安全性和效果。通过使用 transformer、attention 和 - EMNLP美国枪击暴力报道中新闻标题和主题图片的检测
研究发现,通过使用多种信息模式(包括文章和图像派生特征)对新闻框架进行预测可以提高准确性,特别是当图像与标题的框架相关时。这也表明框架图像相关性与通过图像传递框架的便利程度相关。此外,作者还发布了美国枪支暴力相关的第一个多模式新闻框架数据集 - 学习用于立体影像超分辨率的准确且丰富特征
本研究提出了一种混合尺度选择性融合网络(MSSFNet),用于提高立体图像超分辨率(stereoSR)结果的质量,包括保留精确的空间细节和丰富的上下文信息,并自适应地选择和融合来自两个视角的最准确的特征,以增强高质量的 stereoSR 效 - CCA 在多视角文本数据中生成潜在状态 / 变量的适用性
本研究展示了典型相关分析 (CCA) 在发现在双视图设置下捕捉文本数据中的上下文信息的潜在状态方面的潜力,并提出了使用 CCA 执行自动短答案评分任务的模型。经验证实,该模型在实践分析中取得了有竞争力的结果,甚至可以胜过各种先进的监督技术。 - SparseDet: 一种简单而有效的基于全稀疏 LiDAR 的 3D 物体检测框架
提出了一种基于稀疏查询的 SparseDet 稀疏三维物体检测方法,通过局部多尺度特征聚合模块和全局特征聚合模块,完整地捕捉了上下文信息,提高了代理物体表达能力。实验结果在 nuScenes 和 KITTI 上验证了该方法的有效性。
- Hire: 多关系增强的图片文字匹配的混合模态交互
我们提出了一种具有多重关系增强的混合模态交互(称为 Hire)的图像文本匹配方法,通过内外模态语义相关性的关联来改善物体和文本的上下文表示,进而获得更好的图像文本匹配结果。
- DCPI 深度:在无监督单目深度估计中显式注入稠密对应先验
通过三个创新点,本研究提出了一个名为 DCPI-Depth 的框架,该框架采用稠密对应先验,通过上下文信息和光流进行深度感知,实现了在具有挑战性场景中的准确深度估计,并展示了更合理的平滑性。
- 数字病理学中是否重要上下文?
开发医疗人工智能的重要性;通过分析深度学习模型在视觉领域中是否遵循组织学家实践,并证明在预测时上下文信息对模型的性能具有重要影响,部分上下文信息可能导致模型行为不稳定。
- 在线广告中基于 LLMs 的真实聚合
我们提出一种无需微调或访问模型权重的拍卖机制,能有效聚合多个参与者对 LLM 生成的用户查询回复的偏好,并能加入可用的上下文信息,实现快速收敛,从而提高广告主价值和平台收入。
- 立场文件:不解释 (视觉模型) 的上下文
如何利用上下文信息解释计算机视觉模型的新方法需要从 “何处” 到 “如何” 的改变。
- 研究大型语言模型在现实知识冲突下的行为
通过真实冲突文档更新错误的派生参数知识来研究知识冲突,结果显示模型的正确派生参数知识对其阅读能力和行为产生负面影响。
- 大型语言模型用于下一次兴趣点推荐
利用预训练的大型语言模型处理 POI 推荐任务中的丰富背景信息,提出的框架在三个真实世界 LBSN 数据集上表现优于现有模型,有效解决了冷启动和短轨迹问题。
- 人类动作生成的背景及目的
我们提出了一种新的方法,基于神经离散表示学习,用于生成人类运动以填充 3D 室内场景,并利用场景、上下文信息等多种组合的调控信号进行控制,解决了现有方法的局限性,使得模型在质量和多样性上优于现有的特定上下文信息的方法。
- TrACT: 一种对训练动态敏感的对比学习框架,用于长尾轨迹预测
自动驾驶的安全性需要准确预测道路用户未来轨迹以进行安全运动规划,在具有挑战性的条件下尤为重要。本文提出了一种在原型对比学习框架中将更丰富的培训动态信息纳入其中的方法,并在两个大规模自然数据集上进行了实证评估,证明了该方法在改善长尾样本准确性 - 基于场景上下文的视觉引用表达生成中的弹性
探究场景背景在图像中物体指称生成中的作用,并以转换器为基础的 REG 模型为训练和测试对象,结果显示即使简单的场景背景也能使模型对干扰具有出乎意料的韧性,甚至在完全缺失目标的视觉信息情况下也能辨别出指称类型。
- TCLC-GS: 紧密耦合的激光雷达 - 相机高斯投影在自动驾驶环境中的应用
设计一种新的紧密耦合的 LiDAR-Camera 高斯扩散 (TCLC-GS) 方法,充分利用 LiDAR 和相机传感器的优势,实现快速高质量的 3D 重建和新视角 RGB / 深度合成,通过富含上下文信息的 3D 网格和隐式特征来丰富 3 - 上下文对聊天翻译评估是否有帮助?
通过对自动度量、机器翻译聊天等领域进行元评估,我们发现引用自由度量相较于引用依赖度量滞后,尤其在评估英文以外的翻译质量时。我们研究了如何将对话上下文信息融入度量中,并发现将上下文信息与神经学习度量相结合有助于提高自由度量在无参考情景下与人类 - 多核心感知网络用于遥感检测
本文介绍了一种用于遥感图像中的目标检测的多尺度多核卷积网络(PKINet),它使用多尺度卷积核提取不同尺度的目标特征并捕捉局部上下文信息,并引入了上下文锚点注意力模块来捕捉远程上下文信息,这两个组件共同推进了 PKINet 在四个具有挑战性 - 与协作学习一起利用多样的建模背景进行神经机器翻译
本研究提出了一种新颖的通用协作学习方法 DCMCL,在这种方法中,自回归模型(AR)和非自回归模型(NAR)被视为协作者,通过令牌级相互学习和序列级对比学习,在两种模型之间层次化地利用双向语境信息。广泛的实验结果表明,所提出的 DCMCL - COLINGMemoryPrompt:用于提升预训练语言模型中上下文追踪的轻量级封装
Transformer-based language models can be enhanced with MemoryPrompt, a leaner approach that complements the model with a