- CVPRP3Depth: 利用分段平面先验的单目深度估计
提出了一种基于像素平面性先验的单目深度估计方法,并使用具有两个输出头的卷积神经网络来学习并由此实现端到端的训练,以预测尖锐边缘和具有合理 3D 重建的深度图,将其在 NYU Depth-v2 和 KITTI 的 Garg 数据集上的实验结果 - ACL情感图的直接解析
本文研究如何应用基于图的语义解析器直接从文本预测情感图来完成结构化情感分析的任务,取得了在 5 个标准基准测试集中 4 个的最先进结果,并公开了源代码、模型和预测结果。
- ICLRQDrop:一种用于极低位后训练量化的随机丢弃量化方法
本文提出了一种新的方法,即将 activation quantization 纳入 post-training quantization 中,随机放弃激活量化,从而将 PTQ 的极限推向了 2 位。最终结果表明,QDROP 在图像分类、目标 - 应用于法律领域的人工智能技术现状
该研究概述了人工智能在法律领域应用的起源和发展历程,并介绍了自然语言处理在法律文本分析中的最新进展及其现状。
- ICML模型集成:对多个微调模型的权重进行平均可提高准确度且不增加推理时间
通过平均训练以不同超参数配置微调的模型,提高现有模型的性能和鲁棒性,从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。
- 针对零样本动作识别的端到端语义视频变换器
本文提出了一种新的端到端训练 Transformer 模型的方法,能够高效地捕捉长期时空依赖性,在零样本学习方面获得了最新进展,通过避免训练和测试类之间的重叠,提出了一个新的实验设置方案,该方法在 UCF-101、HMDB-51 和 Act - ACL插拔式任务导向对话系统的多任务预训练
该研究提出了通过 PPTOD 模型和新的对话多任务预训练策略来解决任务导向对话系统中存在的级联生成问题,取得了针对几个基准 TOD 任务的最新成果。
- 问答系统中的答案验证联合模型
本文研究了答案句子选择(AS2)模块中选择正确答案句子的联合模型,构建了一个三路多分类器,以支持、反驳或与其他答案中性的方式决定一个答案。通过将最新的 AS2 模型与多分类器和联合层相结合,实现了效果显著的答案集的开发,并在 WikiQA、 - 听我说:用混合方法增强音频时序动作定位
本文提出了简单而有效的基于融合的方法,首次同时考虑音频和视频模态用于监督式的未剪辑视频动作定位 (TAL),在多个融合方案、模态组合和 TAL 架构的消融试验中,我们通过大规模基准数据集(ActivityNet-1.3 和 THUMOS14 - 多模态视频人体聚类:面部、身体、声音
本文针对视频中的角色聚类进行多模态高精度聚类算法和视频角色聚类数据集的引入,旨在解决当前的人脸聚类局限性,为角色层次的推理提供更多线索,并在所有现有数据集上取得了新的最新成果。
- ICLR张量幻觉下的少样本学习
本文提出了一种使用简单的损失函数训练特征生成器,在数据合成过程中生成张量特征而不是向量特征的方法,实验证明该方法在少样本分类中表现优异,超过了更复杂的数据增强方法,成为新的最先进技术。
- CVPR口红不足以为:野外妆容迁移的去色配对技术
这项工作介绍了一个全面的化妆迁移框架,可以处理妆容的所有元素,并引入了新的真实和合成极限妆容数据集进行系统的训练和评估。实验结果表明,该框架在轻妆和极限妆上均取得了最先进的性能。
- MS MARCO 文档排名榜中的显著性改进案例研究
本文讨论了现代应用机器学习研究中用来排序的排行榜,分析了当前榜首成为 “state of the art” 的机制,他们不 use 常用的 signifance testing,并提出了一种明确区分排名结果的评估框架。此外,文章分析了 MS - 基于记忆增强的强化学习在图像目标导航中的应用
该研究提出了一种基于记忆增强的注意力机制模型,利用序列记忆学习图像目标导航,模型表现优异,创造了新的最优结果。与相关工作不同的是,仅使用 RGB 图像输入,无需姿态 / 深度传感器等额外信息。
- 知识密集型任务的多任务检索
本文介绍了一个多任务学习的神经检索模型,该模型在少样本、领域内外多种问题下表现良好,能够有效地检索到相关上下文信息,并且在多个基准测试中实现了与或优于目前的最新技术结果。
- 探究视觉与语言预训练模型的鲁棒性
通过对现有的预训练模型进行全面评估和改进,本研究提出了一种名为 Mango 的方法,在嵌入空间中学习多模态对抗性噪声生成器,使得预训练的视觉 - 语言模型的鲁棒性得到了大幅度提升,并在七项鲁棒性测试中创造了新的最高水平。
- 可扩展异构图的图神经网络
本文研究图神经网络在异构图上的应用问题,并提出了一种名为 NARS 的分类器,使用邻居平均特征进行多元关系子图采样,该方法取得了比 GNN 更准确且更具成本效益的结果。
- COOT:用于视频文本表示学习的协作层次 Transformer
本文提出了一种名为 Cooperative hierarchical Transformer (COOT) 的方法,它能够利用不同层次的细节信息和多模态之间的相互作用,同时比同类方法减少了参数数量。
- EMNLPOpenIE6: 开放信息提取的迭代网格标签化和协调分析
本研究提出一种新的基于迭代标记的方式,利用新型的迭代网格标记(IGL)架构,将 OpenIE 视为二维网格标记任务,应用软约束于训练过程,实现了 OpenIE 的新突破,使得速度快了 10 倍,同时也建立了协调分析任务的新的行业标准,并比之 - 基于弱监督的深度函数地图用于形状匹配
本文介绍了一种基于深度函数图的新框架,用于完全对齐和部分对齐形状匹配,实现了多个基准数据集上的最先进结果,甚至超过了完全监督的方法。