- 使用部分遮罩融合格罗莫夫 - 瓦瑟斯坦匹配的端到端监督预测任意大小的图
我们提出了一种新颖的端到端深度学习方法,用于监督图预测。我们引入了一种原始的基于最优传输的损失函数,即部分遮蔽融合 Gromov-Wasserstein 损失函数(PM-FGW),可以直接利用图形表示(如邻接和特征矩阵)。PM-FGW 具有 - ACL使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应
使用端到端深度学习方法构建的文本到语音系统,通过高资源语言数据和合成数据进行迁移学习,利用目标语言中的现有单语者文本到语音系统生成领域内合成数据,实现在低资源环境下训练高质量的单语者文本到语音系统,证明了双重预训练和仅解码器微调的重要性,并 - EPro-PnP: 单目对象姿态估计的通用端到端概率透视 n 点算法
本文提出了一种用于 3D 物体检测的 PnP 基于深度学习和概率密度的可微分神经网络层,通过最小化 KL 散度来学习 2D-3D 点匹配权重,实现了端到端的姿态估计和精准的物体定位。
- 自主导航深度学习应用和方法的最新进展 —— 一份综述
本综述论文系统地总结了目前应用于自主导航中的端到端深度学习框架,包括障碍物检测、场景感知、路径规划和控制,并分析了最新的研究状况和评估深度学习方法的实施和测试。该论文强调了导航对于机动机器人、自动驾驶车辆和无人机的重要性,并讨论了深度学习方 - BayesSpeech: 一种用于自动语音识别的 Bayesian Transformer 网络
使用 Bayesian Transformer Network 进行变分推理的经验深度学习模型在自动语音识别方面的性能近乎达到最新的循环神经网络技术,同时权重方差的引入可以使训练时间更快。
- 视频视觉 Transformer 用于暴力检测
利用端到端深度学习技术和数据增强策略,提出一种暴力事件自动检测解决方案,相较于先前最好的方法,在一些具有挑战性的基准数据集中取得了良好的性能,可用于帮助执法部门及时采取行动。
- ICMLSwiftLane: 快速高效车道检测
本文提出了 SwiftLane 算法,这是一个采用端到端深度学习框架、基于行分类的轻量级车道检测方法,同时加入假阳性抑制算法和曲线拟合技术,实现了较高的检测准确率和每秒 411 帧的推理速度。此外,在使用 TensorRT 优化后的 Nvi - CVPR超越图像:使用回声改善深度预测
提出一种基于端到端深度学习的多模式融合技术,通过利用 RGB 图像、双耳回响和场景中不同物体的材料属性来改进音视频输入的场景深度估计,实验证明该方法在 Replica 数据集上比最先进的音视频深度预测方法提高了 28% 的 RMSE,并在 - 通过呼吸和咳嗽声音进行端到端 COVID-19 检测
本研究利用自发集成的数据集,首次尝试使用端到端的深度学习方法对 COVID-19 进行诊断,ROC-AUC 为 0.846;引入自定义的深度神经网络,以关节呼吸和咳嗽表示的方式诊断 COVID-19;提供了四个分层折叠的数据集以及模型细节, - AAAIDeepVar:一个端到端的深度学习方法,用于生物医学文献中基因组变异的识别
本文针对生物医学科学文献中的命名实体识别问题,尤其是基因组变异识别问题,提出了一种先进的端到端深度学习算法,实现了通用命名实体识别算法与低资源应用之间的桥梁,不需要手工特征工程或后处理规则,可望在低资源命名实体识别应用领域取得有希望的性能。
- MM基于图卷积网络的面部动作单元检测关系建模
本文提出了一种基于端到端深度学习框架进行面部 AU 检测的方法,使用图卷积网络(GCN)进行 AU 关系建模,通过解码器学习 AU 信息,再将每个隐层表示向量作为 GCN 的节点,最后将 GCN 更新的特征组合起来进行 AU 检测,实验证明 - 基于神经互信息估计的信道编码深度学习
提出了一种利用神经估计器来优化编码器从而实现最大化互信息的新方法,该方法仅依赖于信道样本,可以达到与具有完美信道模型知识的最新端到端学习相同的性能。
- 野外图像中的三维手部形状和姿态
利用先前计算好的人工建模和先验知识,结合深度学习的方法实现了从 RGB 图像中预测手部形状和姿态,结果显示出在标准基准测试中表现出最新颖的 3D 姿态预测效果,同时在弱监督下训练的模型也能够很好的应用于在实际环境中的 3D 形状和姿态预测。
- 双向循环神经网络在色散强度调制信道上进行端到端优化传输
本研究提出一种基于序列自编码收发器的双向深度循环神经网络(BRNN),该网络使用滑动窗口技术来实现高效数据流估计。我们发现,这种滑动窗口 BRNN 相比之前的基于块的前馈神经网络(FFNN)自编码器在所有检测的距离上都能显著降低误码率,从而 - 自动驾驶再思考:多任务知识提升泛化及事故解释能力
本文提出了一个基于分析易任务知识对困难任务进行指导以增强驾驶模型泛化力和事故解释能力的新型驾驶模型,通过多任务感知相关基础知识和驾驶知识的逐步训练,成功地提高了驾驶模型的平均完成率,使其在未训练的城市和天气中大幅优于当前基准方法。
- 头戴式增强现实设备的自我中心手势识别
本文提出一种基于端到端深度学习方法,采用用于识别土生土长的姿势的时间分辨率特征的循环神经网络和用于找到土手特征的自我手编码器网络,结合绿色屏幕捕获的数据扩充技术来缓解地面真实性注释问题,从而实现了土心姿势识别的问题。
- 通过模块化和抽象实现驾驶策略转移
该论文提出了一种通过模块化和抽象化来从仿真环境中转移自动驾驶车辆策略到现实世界的方法,该方法旨在将模块化架构和端到端的深度学习方法的优点相结合,从而解决自动驾驶车辆训练中的传递性问题,并在仿真城市环境和现实世界中进行了评估。
- AAAI多通道金字塔人物匹配网络用于人员再识别
本文提出了一种基于多通道深度卷积金字塔的人员匹配网络 (MC-PPMN),通过语义成分和颜色纹理分布的组合,学习分离的深度表征,并使用金字塔人员匹配网络来获得对应的表征,最终融合这些表征来执行人员重新识别任务。此外,通过统一的端到端深度学习 - 通过深度学习学习 URL 表达以进行恶意 URL 检测的 URLNet
本文介绍 URLNet,一种基于端到端深度学习的框架,可直接从 URL 中学习非线性嵌入以对恶意 URL 进行检测。通过应用卷积神经网络来学习 URL 字符和单词的嵌入,该方法允许模型捕捉不同类型的语义信息,并通过高级词嵌入来解决任务中出现 - AAAIUnFlow: 双向 Census 损失的光流无监督学习
本研究提出一种利用基于能量的方法进行光流估计的无监督学习方法以替代对真实场景难以获得的像素精确度地面实况数据的依赖,此方法在 KITTI 基准测试中的表现优于以往的无监督深度网络,甚至比仅在合成数据集上进行训练的类似监督方法更准确,在 KI