- 具备光谱归一化联合能量的多标签离群检测
通过应用能量函数的理论概念和谱归一化方法,本研究提出了一种名为 SNoJoE 的能量函数,用于多标签异常检测任务,实验结果表明相对于先前方法,SNoJoE 在异常检测方面取得了显著改进,定义了该研究领域的新的最佳方法。
- 基于 6D 姿态估计的 Jenga 叠砌在建筑造型寻找过程中的应用
本文对当前最先进的 6D 位姿估计方法进行了综述,并讨论了在两种建筑设计场景中应该使用哪种位姿估计方法。以最新的位姿估计研究 Gen6d 为例,我们从应用级别、预测速度、抗遮挡性、精确度、抗环境干扰等方面对当前的开放集方法进行了定性评估。此 - 稳健的单次旋转平均重新审视
基于最小化截断的欧氏距离的平均旋转方法,具有较强的抗干扰性能,优于当前领先的方法。
- CausalBench 挑战赛:基于单细胞干扰数据的基因网络推断的机器学习竞赛
通过分析 CausalBench 挑战赛中的方法提交情况,提升了基因 - 基因相互作用网络的构建能力,为生物学和医学领域关键任务的状态提供了改进和新的技术水平。
- 生成型人工智能的强化学习:现状和机遇,开放研究挑战
通过应用强化学习于生成型人工智能,我们讨论了现有技术水平、机会以及开放性研究问题。具体而言,我们分析了三种应用情况,包括没有指定目标的生成方法、在最大化目标函数的同时生成输出的方法,以及将难以通过目标函数捕捉到的所需特征嵌入生成过程的方法。 - ICLR随机多人三维运动预测
该论文提出了一种新型的人类运动预测任务,针对多人运动、社交交互和关节运动的复杂性,提出了一种模型框架,通过引入可学习的潜在编码来表示未来动作的意图来实现不同层次的独立个体运动和社交交互建模,在多个数据集上得到了显著的多人预测结果,表现显著优 - 利用卷积神经网络实现自动照片方向检测
本研究采用了卷积神经网络对图像方向检测进行研究,取得了优于同类论文的研究成果,该系统在消费级照片的检测中表现出色,并使用 Guided Backpropagation 解释其错误。
- 使用整数规划的布尔矩阵分解算法
本文提出了一种基于整数规划的交替优化策略,来解决二进制矩阵因数分解的问题,同时给出了两种初始化因子的方式,并展示了如何使用整数规划将多个解组合起来以生成更优的解。实验结果表明,我们的算法优于现有方法。
- 神经结构搜索的自我监督学习 (NAS)
此篇论文旨在提出一种创新的方法,利用未标记的数据即可自动学习以预测正确的结果,包括查阅现有技术并确定发展路径、实施和测试新方法,本文介绍了源于实习的多个探索方向。
- CVPRVid2Seq:面向密集视频字幕生成的视觉语言模型的大规模预训练
本文介绍了 Vid2Seq,这是一种多模态单阶段密集事件字幕生成模型。该模型使用特殊的时间令牌扩展语言模型,可无缝预测事件边界和文本描述。我们利用未标记的叙述性视频重塑语音转录的句子边界,作为伪事件边界,并使用语音转录句子作为伪事件字幕,从 - CK-Transformer:基于常识知识的 Transformer 模型用于指代表达理解
本研究提出了一种基于常识知识增强的 Transformer 框架 (CK-Transformer) 用于图像中多模态指称表述的理解,实验结果表明 CK-Transformer 在 KB-Ref 任务上实现了一项新的最优表现,相比现有技术提高 - AAAIVBLC: 适用于恶劣条件下域自适应语义分割的可见性增强和逻辑约束学习
提出了一种新的可用于将视觉图像从正常条件转化为不良条件的方法,使用 Visibility Boosting 和 Logit-Constraint learning 的组合来消除参考图像,并处理混合的逆境天气状况,从而实现更好的性能。在两个基 - 蛋白质功能预测的深度学习技术综述
本篇论文综述了近年来利用深度学习方法在蛋白质功能预测任务领域取得的良好表现,并介绍了现代最先进的深度学习模型对计算机视觉、自然语言处理和多模态学习等领域的重大贡献。同时,文章提出自动化蛋白质功能预测任务的重要性,并希望能够鼓励更多的研究者进 - 实体消歧与实体定义
本文解决了 Entity Disambiguation 方向在仅仅使用 Wikipedia 标题作为文本表示的情况下,标题信息不足或相互区分度不够的局限性,并探讨了更加丰富的文本表达方式如何解决这一问题。作者认为,相比其他方法,采用 ext - 基于 DNN 的国家识别新数据和方法
本文利用 3.8 万张包含地理位置信息的图像构建数据集 VIPPGeo,并利用该数据集进行国家识别问题的分类模型训练与实验,发现比直接基于地理坐标估计图片拍摄地并追溯国家更为有效,结果优于现有研究。
- 潜指纹识别的对偶关系建模
研究使用混合深度网络建立两个指纹间相似性特征直接模型的方法,得到的结果在两个数据集上均优于现有技术。
- 通过语言分离多语言模型提高低资源无监督翻译的精度
该论文提出一种简单的细化流程,将语言从预训练的多语言 UMT 模型中分离出来,使其专注于目标低资源任务,并实现了英语到尼泊尔语、僧伽罗语、古吉拉特语、拉脱维亚语、爱沙尼亚语和哈萨克语的全无监督翻译任务的最先进,其 BLEU 得分分别为 3. - GIT: 用于视觉和语言的生成图像到文本的变压器
本文设计和训练了一个生成式图像到文本的转换器 ——GIT,以统一图像 / 视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模,GIT 在 12 个具有挑战性的基准测试中都取得了新的最佳表现,这些基准测试中有 Tex - CVPR无标签的自学度量学习
本文提出了一种新的自学习框架用于无监督度量学习,该框架通过交替预测数据之间的类等价关系和利用预测的关系作为伪标签来学习模型。其中的算法能够有效地进行端到端的训练,因为它不需要伪标签的现成模块。通过在标准的度量学习基准上的表现,它明显优于现有 - CVPR视觉破坏中的注意一致性对于单源域泛化的影响
通过使用图像数据的变形,以及同一样本不同视角间的一致性注意力以强化单一数据分布训练出来的视觉识别模型对不同数据分布(即域)的鲁棒性,并命名该模型为 ACVC。研究表明,ACVC 在 PACS、COCO 和 DomainNet 三个单源域泛化