- 大型语言模型理解逻辑还是仅仅模仿语境?
大型语言模型在逻辑推理和符号推理等复杂场景中表现出色,但其在理解逻辑规则上存在限制,本文通过反事实方法探讨了大型语言模型的推理能力,强调了加强机制以确保其可靠的逻辑推理的需求。
- ODTrack: 在线稠密时序令牌学习用于视觉跟踪
在线图像跟踪中,稀疏的时间关系会限制引用帧和搜索帧之间的联合处理,为了解决这一问题,本文提出了一种名为 ODTrack 的简洁、灵活、有效的视频级跟踪方法,通过在线令牌传播方式密集地关联视频帧的背景关系,从而在多个基准测试中取得了先进的性能 - 定义视觉新时代的基础模型:调查与展望
视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。
- 异质语义本地通信的贝叶斯逆境地推理
本研究提出了一种解决 SNC 中 CR 问题的框架,使用两种贝叶斯推理方法:贝叶斯反向 CR 和贝叶斯反向线性化 CR 方法,实验结果表明,贝叶斯反向线性化 CR 方法相对于贝叶斯反向 CR 方法而言,需要更少的计算量并且具有更高的推理准确 - CVPR边缘上的魔鬼:选择性四重注意力用于场景图生成
提出了 Selective Quad Attention Network(SQUAT)框架,通过边缘选择和四元关注机制完成场景图生成,解决了语境推理中背景,干扰和大量无关关系的问题,在 Visual Genome 和 Open Images - 跨语言说话人识别使用远程监督
该论文提出了一种演讲者识别的框架,通过大规模的英文远程监督训练跨语言语言模型,解决了当前方法中存在的上下文推理能力和跨语言泛化性不足问题,并在英文和中文演讲者识别数据集中取得了优于现有方法的表现。
- MM具有语境推理功能的语义原生通信
通过引入上下文推理,本文提出了一种基于语义的随机模型,用于更有效地传递信息,同时证明系统二的可靠性能够随着意义概念数量的增加而提高,并通过期望语义表示位长度来衡量提取出的有效语义,实验结果表明该模型显著缩短语义表示长度且不会影响通信可靠性。
- TIMEDIAL: 对话中的时间常识推理
本文首次探讨了预训练语言模型在对话中的时间推理能力,并通过引入新任务 TIMEDIAL 和多项选择 cloze 测试集验证了模型的表现,同时指出模型在考虑对话上下文以及模型对于上下文中时间模式依赖性的主观推断方面存在差距,为未来时间概念建模 - 上下文中的自然语言推断 -- 探讨长文本中的上下文推理
介绍一种新的基于长文本语境下的对比学习模型 ConTRoL,该模型具有一定难度,能够检测语境推理中的各种类型,并且在测试中结果表明该模型比自然语言处理的最先进模型表现得更好,同时还可进行事实正确性验证任务。
- CVPR2019 年 Activitynet 第三项任务:探索视频中复杂事件的背景
本研究系统地探索了不同的视频字幕模型,提出了五种上下文和两类事件字幕模型,并从准确性和多样性两个角度评估了它们对事件字幕的贡献,该提出的字幕模型被插入到我们的管道系统中,本系统在视频任务的密集字幕事件上取得了最新颖的表现。
- CVPR上下文与属性基础的密集字幕
本文提出了一种基于上下文推理和多级属性的视觉挖掘及区域描述生成的密集字幕框架,并利用层次化语义属性提供辅助监督,实验结果表明该模型优于现有最先进的方法。
- CVPR寻找微小人脸
该论文探讨了物体识别中探测小物体的挑战,重点考察了尺度不变性、图像分辨率、语境推理等方面,并通过训练深度网络实现了在小脸检测方面的突破,在 FDDB 和 WIDER FACE 数据集上实现了优异的结果。