- 利用增强的点集查询进行矢量化地图构建
一个以增强查询功能为重点的端到端方法(MapQR),用于构建在线矢量地图。通过使用散开并聚合的查询设计以及添加来自参考点的位置信息来改进实例查询,MapQR 实现了最佳的平均精度 (mAP) 并且在 nuScenes 和 Argoverse - RGNet:一个用于长视频的统一检索与定位网络
通过统一跨模态 RG-Encoder 和稀疏采样技术,RGNet 方法实现了对长视频进行端到端的特定时刻定位,从而超过了以往在长视频时间定位数据集 MAD 和 Ego4D 上的方法,展示了最先进的性能。
- 基于深度学习的表格识别综述
表格识别是使用计算机自动理解表格,从文档或图片中检测表格位置并正确提取和识别表格的内部结构和内容。本文从数据集、表格识别模型、端到端方法、数据增强和表单识别等方面综述了表格识别问题,并总结和比较了该领域的实验数据,分析了主流和更有优势的方法 - 生成模型的最优预算拒绝采样
提出了利用拒绝抽样方法改进判别器生成模型性能的研究,其中包括了 Optimal Budgeted Rejection Sampling (OBRS) 方案和端到端方法,通过实验和理论支持表明,这些方法可以显著提高样本的质量和多样性。
- EAR-Net: 从多视图图像中追求端到端绝对旋转
提出一种基于深度神经网络的 End-to-end 方法,称为 EAR-Net,用于从多视角图像中估计绝对旋转,并在三个公共数据集上表明 EAR-Net 在准确性和速度方面明显优于现有方法。
- WSDM长文档跨语言摘要
本文介绍了长文档跨语言摘要的研究现状,并构建了 Perseus 数据集,评估了不同的从结构和端到端方案,结果表明端到端方案卓越地胜过利用复杂机器翻译系统配备的管道模型。
- 全自动端到端假音频检测
本文提出了一种完全自动化的端到端虚假音频检测方法,使用了 wav2vec 预训练模型和修改版的 differentiable architecture search 算法(light-DARTS),在 ASVspoof 2019 LA 数据 - 基于空间双模态图推理的关键信息提取
本文提出了一种旨在从文档图片中提取关键信息的端到端空间双模图形推理方法,将文档图像建模为双模图,节点编码检测到的文本区域的视觉和文本特征,边表示相邻文本区域的空间关系,并通过沿图边传播消息和推理图节点的类别来解决关键信息提取问题;进一步提供 - 基于 Transformer 的端到端车道形状预测
本文提出了一种使用 transformer 网络进行车道检测的端到端方法,使用自我注意机制来捕捉细长结构和全局上下文,并在 TuSimple 基准测试中展示了最新的准确性,适应性和实际应用的强大部署潜力。
- VTGNet:面向城市环境的自主驾驶车辆的基于视觉的轨迹生成网络
本论文提出了一种基于模仿学习的不确定性感知的端到端轨迹生成方法,能够从前置相机图像中提取空时特征,并能在不同环境中生成可靠的轨迹,具有优于现有最先进的端到端控制方法的跨场景 / 平台驾驶结果。
- 端到端音视频语音识别的模态注意力
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法 - 循环实例分割
该研究提出了一种基于循环神经网络的端到端方法,通过顺序地查找每个不同的目标对象及其分割来解决实例分割的问题,并通过空间记忆来跟踪已解释的像素,以处理遮挡,这种方法优于当前所有最先进的方法。